Format Respons Optimal Tes Bakat Kerja: Temuan dari Studi Eksperimental Focusync

Anjar Kartaputra
May 19
7 min read

Kategori: Temuan Lapangan | Psikometri & Tes Bakat Kerja Digital Estimasi baca: 6–8 menit

Ditulis oleh Anjar Kartaputra + Rafli Sodiq Bagaskara | MeX-Lab | Anvesana Research Institute

Bayangkan kamu sedang mengambil keputusan rekrutmen tinggi-stake — penempatan analis, beasiswa S2, atau promosi jabatan. Alat ukur yang kamu pakai punya satu pilihan desain yang sering dianggap remeh: berapa banyak opsi jawaban per soal? Kelihatannya teknis, tapi data kami menunjukkan pilihan ini bisa menentukan apakah skor yang keluar benar-benar bisa kamu pakai untuk memutuskan nasib seseorang.

Mengapa Format Respons Jadi Pertanyaan Serius

Tes bakat kerja sudah lama jadi alat standar di proses seleksi karyawan, beasiswa, hingga penempatan jabatan. Versi konvensionalnya — yang sehari-hari dikenal sebagai "tes koran" — meminta peserta menyelesaikan rangkaian operasi matematika sederhana secara berulang dalam waktu terbatas. Dari pola jawaban itu, beberapa atribut psikologis bisa diestimasi: kapasitas kerja, ketelitian, stabilitas emosi, dorongan berprestasi, hingga vitalitas.

Tapi tes berbasis kertas punya keterbatasan yang sudah lama dikeluhkan praktisi: rentan human error di pengerjaan, lambat di skoring, dan repotnya luar biasa kalau peserta banyak. Karena itu, banyak praktisi dan pengembang tes berpindah ke format Computerized Based Test (CBT) — tes yang dirancang dan dikerjakan langsung di komputer, dengan skoring otomatis. CBT lebih efisien, lebih terstandar, dan lebih mudah didistribusikan.

Yang sering luput dibahas: transisi dari kertas ke komputer memaksa pengembang membuat keputusan desain yang sebenarnya cukup besar. Salah satunya — apakah peserta menjawab dengan mengetik angka langsung (open-ended), atau memilih dari sejumlah opsi (close-ended)? Dan kalau memilih, berapa opsi yang ideal? Dua, tiga, atau lebih?

Focusync dan Dilemma yang Kami Coba Jawab

Focusync adalah tes bakat kerja berbasis komputer yang dikembangkan MeX-Lab Anvesana sebagai bagian dari rangkaian instrumen asesmen digital. Seperti tes konvensional yang sudah mapan, Focusync menyajikan tugas matematika repetitif — tapi dalam format digital interaktif yang dijalankan lewat platform Scalify.

Lima dimensi yang diukur Focusync:

Kapasitas kerja — jumlah jawaban yang berhasil diselesaikan
Ketelitian — jumlah jawaban yang salah
Stabilitas emosi — simpangan atau fluktuasi performa
Dorongan berprestasi — ketinggian kurva performa
Vitalitas — letak puncak performa dalam sesi tes

Karena ini instrumen digital baru, salah satu pertanyaan pertama yang harus kami jawab adalah: format respons mana yang paling tepat? Kami memilih membandingkan dua format yang paling realistis untuk CBT — format 2-opsi (dichotomous) versus 3-opsi (trichotomous) — lewat studi eksperimental dengan desain post-test only control group.

Cara Kami Meneliti

Studi melibatkan 45 partisipan mahasiswa (setelah pembersihan data dari 54 peserta awal) di Bandung. Partisipan dibagi secara acak ke dua kelompok: kelompok 2-opsi (N = 22) dan kelompok 3-opsi (N = 23). Seluruh sesi tes dilakukan secara luring dengan pengawasan psikolog dan sistem proctoring digital. Untuk mengukur validitas konvergen — sederhananya, apakah Focusync benar-benar mengukur hal yang sama dengan tes bakat kerja yang sudah mapan — skor partisipan dikorelasikan dengan Tes Pauli¹, instrumen tes bakat kerja yang sudah lama diakui di Indonesia.

Dua kualitas instrumen yang menjadi sorotan: reliabilitas Cronbach's alpha (seberapa konsisten skor yang dihasilkan — kalau orang yang sama mengerjakan ulang, hasilnya seharusnya tidak berbeda jauh) dan validitas konvergen (apakah tes ini berkorelasi dengan tes lain yang seharusnya mengukur konstruk yang sama).

Apa yang Muncul dari Data

Temuan 1 — Reliabilitas: 3-opsi lolos ambang batas, 2-opsi tidak.

Aspek yang Diukur	α — Format 3-Opsi	α — Format 2-Opsi
Kapasitas kerja (Jumlah)	0,991	0,984
Ketelitian (Salah)	0,718	0,582
Stabilitas emosi (Simpangan)	0,676	0,680

Perbedaan paling tajam ada di aspek Ketelitian. Format 3-opsi mencapai α = 0,718 — melampaui ambang minimum reliabilitas yang umum diterima (α ≥ 0,70)². Format 2-opsi hanya 0,582 — di bawah ambang. Artinya apa dalam bahasa praktis: kalau kamu pakai format 2-opsi untuk menilai ketelitian seseorang, skor yang sama belum tentu muncul lagi ketika orangnya mengerjakan ulang — variansnya terlalu besar untuk dipakai mengambil keputusan personal.

Kenapa 3-opsi lebih reliabel? Karena format 3-opsi menyediakan dua distraktor (jawaban salah yang plausibel), bukan satu. Kemungkinan menjawab benar secara asal turun dari 50% (di 2-opsi) menjadi sekitar 33,3%. Tebakan acak berkurang — yang terukur jadi lebih murni performa, bukan keberuntungan³.

Temuan 2 — Validitas konvergen: 3-opsi sesuai arah konstruk, 2-opsi justru bertentangan.

Saat skor Focusync dikorelasikan dengan Tes Pauli, format 3-opsi menunjukkan korelasi yang signifikan dan sesuai konstruk — paling jelas terlihat di aspek Kapasitas Kerja (r = 0,637, p < 0,01 untuk korelasi antara aspek Jumlah Focusync dengan aspek Jumlah Pauli). Praktisnya: orang yang skor kapasitas kerjanya tinggi di Focusync, cenderung juga tinggi di Pauli. Itu yang diharapkan kalau dua tes mengukur hal yang sama.

Format 2-opsi cerita berbeda. Selain banyak korelasi yang tidak signifikan, beberapa korelasinya berlawanan arah dari yang diharapkan secara teori. Misalnya, aspek Ketelitian (jumlah salah) berkorelasi negatif signifikan dengan Tempat Puncak Pauli — yang secara konstruk seharusnya tidak terjadi. Ini sinyal kuat bahwa format 2-opsi tidak sedang mengukur apa yang seharusnya diukur. Bukan sekadar "kurang valid" — tapi mungkin sedang mengukur sesuatu yang lain.

Apa Artinya untuk Praktisi

Tes bakat kerja itu high-stakes. Hasilnya dipakai untuk memutuskan siapa yang diterima kerja, siapa yang dapat beasiswa, siapa yang naik jabatan. Kalau instrumennya tidak cukup reliabel atau valid, keputusan yang lahir dari skor itu juga goyah — dan yang menanggung akibatnya adalah individu yang dinilai.

Untuk pengembang tes (terutama yang sedang membangun versi CBT dari tes kognitif klasik), pesan datanya jelas: format respons bukan detail kosmetik. Memilih 2-opsi karena alasan kesederhanaan desain ternyata punya konsekuensi psikometrik nyata. Penambahan satu opsi jawaban — dari 2 ke 3 — memberikan peningkatan reliabilitas dan kejernihan konstruk yang bermakna.

Untuk psikolog dan biro asesmen yang menggunakan tes bakat kerja di lapangan, ini adalah bahan refleksi praktis: format respons dari tes yang kamu pakai adalah bagian dari validitas keseluruhan instrumen. Saat memilih tes untuk dipakai di proses rekrutmen, format respons layak masuk daftar pertanyaan ke vendor — bukan cuma reliabilitas dan norma.

Untuk HR dan praktisi industri yang lebih sering menjadi pengguna akhir, satu hal yang bisa kamu tanyakan ke konsultan atau psikolog yang menyiapkan tes: "Berapa opsi jawaban di tes ini, dan apa pertimbangan psikometrik di balik pilihan itu?" — pertanyaan yang dulu mungkin terdengar terlalu teknis, tapi sekarang jelas terhubung ke kualitas keputusan yang akan kamu ambil.

Konteks Indonesia

Lanskap tes bakat kerja di Indonesia sedang dalam transisi besar. Banyak praktisi dan biro asesmen yang sebelumnya mengandalkan tes berbasis kertas — Pauli, Kraepelin, dan turunannya — sedang menimbang atau sudah pindah ke versi digital. Tapi keputusan teknis di balik transisi ini sering tidak dibahas terbuka: format respons, mekanisme skoring, sistem proctoring, hingga adaptasi norma.

Inilah ruang yang ingin MeX-Lab isi. Bukan dengan klaim "tes digital baru ini lebih baik" — itu klaim yang harus dibuktikan, bukan dideklarasikan. Tapi dengan data eksperimental yang transparan, sehingga komunitas psikometri Indonesia punya pijakan empiris saat mendesain atau mengevaluasi tes bakat kerja digital. Studi ini hanyalah satu langkah kecil — masih banyak yang harus diuji, terutama di luar Bandung dan di luar populasi mahasiswa. Tapi langkah-langkah kecil seperti inilah yang membentuk psikometri Indonesia yang lebih kokoh dari sekadar adaptasi mentah instrumen impor.

Batasan dan Arah ke Depan

Studi ini punya batasan yang penting untuk disebut. Sampelnya kecil — 45 partisipan dari satu institusi di Bandung — sehingga generalisasi ke populasi pekerja yang lebih luas masih perlu diuji. Validitas konvergen untuk aspek Simpangan, Tinggi, dan Tempat Puncak juga belum sepenuhnya terbukti pada data ini, dan itu menjadi agenda lanjutan kami. Rencana berikutnya: uji ulang dengan sampel yang lebih besar dan lebih beragam (lintas latar pendidikan, lintas industri, lintas daerah), serta perluasan validasi ke aspek-aspek yang belum tervalidasi penuh.

Hasil ini juga bukan klaim final tentang Focusync. Yang sudah terbukti di studi ini adalah desain 3-opsinya — format responsnya, bukan keseluruhan instrumen. Validasi penuh instrumen Focusync sebagai tes bakat kerja yang siap dipakai di skala industri masih dalam proses, dan akan kami komunikasikan ketika datanya cukup⁴.

Penutup

Yang ingin kami tegaskan dari studi ini: keputusan desain yang tampaknya kecil — seperti memilih 2 atau 3 opsi jawaban — bisa menentukan apakah skor yang dihasilkan tes layak dipakai untuk keputusan personal yang penting. Kalau kamu praktisi, pengembang, atau pengguna tes bakat kerja, coba periksa kembali instrumen yang sedang kamu pakai atau pertimbangkan: berapa opsi yang ditawarkan, dan apakah jumlah itu didasarkan pada bukti atau sekadar pilihan praktis. Pertanyaan sederhana itu, kalau diajukan rutin, akan perlahan menggeser standar tes bakat kerja digital di Indonesia ke arah yang lebih sehat. Kami senang berdiskusi lebih lanjut dengan psikolog, biro asesmen, dan akademisi yang juga sedang menggali pertanyaan serupa — datanya, metodologinya, atau implikasinya.

Referensi

Kraepelin, E. (1902). Die Arbeitskurve [The work curve]. Engelmann. (Dasar historis tes Pauli/Kraepelin sebagai instrumen kerja kontinu yang kemudian distandarisasi ulang oleh Pauli.)
Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric theory (3rd ed.). McGraw-Hill.
Rodriguez, M. C. (2005). Three options are optimal for multiple-choice items: A meta-analysis of 80 years of research. Educational Measurement: Issues and Practice, 24(2), 3–13. https://doi.org/10.1111/j.1745-3992.2005.00006.x
Gierl, M. J., Bulut, O., Guo, Q., & Zhang, X. (2017). Developing, analyzing, and using distractors for multiple-choice tests in education: A comprehensive review. Review of Educational Research, 87(6), 1082–1116. https://doi.org/10.3102/0034654317726529
Kartaputra, A., & Bagaskara, R. S. (2026). A comparative analysis of 2-option and 3-option response formats for computerized work aptitude test assessment [Internal research report]. Anvesana Research Institute, MeX-Lab.

Tentang Kontributor

Artikel ini ditulis oleh Anjar Kartaputra dan Rafli Sodiq Bagaskara, peneliti di MeX-Lab Anvesana Research Institute. MeX-Lab (Measurement & Experience Lab) adalah unit Anvesana yang fokus pada pengembangan, validasi psikometrik, dan penyempurnaan instrumen pengukuran — termasuk pengujian aspek-aspek desain teknis seperti format respons, struktur item, dan platform pengerjaan. Studi yang dibahas di artikel ini adalah bagian dari proses validasi awal Focusync, instrumen tes bakat kerja berbasis komputer yang sedang dikembangkan MeX-Lab.

Anvesana Research Institute adalah lembaga riset psikologi terapan independen berbasis di Yogyakarta yang berfokus pada tiga jalur kerja yang saling melengkapi: memahami fenomena psikologis manusia melalui riset (explanatory research), mengembangkan dan memvalidasi alat ukur psikometri (psychometric research), dan merancang serta menguji intervensi berbasis bukti (intervention research). Studi format respons ini adalah contoh konkret dari jalur kedua — pekerjaan teknis di balik instrumen, yang sering tidak terlihat publik tapi menentukan apakah alat ukur layak dipakai untuk keputusan-keputusan yang penting di dunia nyata.