1Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes Akurasi Relatif Penyetaraan Skor Tes untuk Sampel Berukuran 300 Ditinjau dari Metode Penyetaraan dan Teknik Penghalusan A.J.V Tumilisar*) *) Guru SMAK Triana Jakarta Pusat Penelitian Latar Belakang Masalah oal-soal bentuk pilihan ganda telah mulai dikenal di Indonesia sejak tahun 1960-an (Suryadibrata, 1995: 15). Dengan banyaknya terbitan buku-buku berisi kumpulan soal berbentuk pilihan ganda, maka guru pun cenderung dengan mudah memilih atau mengadaptasi soal-soal pilihan ganda itu. Hal itu terjadi, karena pada satu sisi membuat tes berbentuk pilihan ganda yang memenuhi syarat Tujuan penelitian ini adalah untuk meneliti akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, ditinjau dari metode penyetaraan dan teknik penghalusan. Teknik penghalusan yang digunakan adalah tanpa prapenghalusan (TP), prapenghalusan log-linier (LL) dan prapenghalusan kernel (KN), sedangkan metode penyetaraan yang digunakan adalah metode penyetaraan ekipersentil berantai (EB) dan ekipersentil estimasi frekuensi (EEF). TP, KN, EB, dan EEF, serta rata-rata dari deviasi akar kuadrat rata-rata dari ekivalensi ekipersentil )(RMSD sebagai kriteria akurasi relatif, dianalisis dengan menggunakan program yang dibuat, sedangkan LL dianalisis dengan program Log-Linear SPSS-X. Penelitian yang dilakukan di 18 SMU Negeri dan Swasta di DKI Jakarta, pada siswa kelas III IPA semester pertama tahun ajaran 2002/2003, pada mata pelajaran Fisika ini menyimpulkan bahwa akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, yang menggunakan TP dan EEF, lebih tinggi dari TP dan EB. Kata kunci: Skor tes, sampel, penyetaraan, akurasi relatif penyetaraan, metode penyetaraan, teknik penghalusan. The aim of this research is to study the relative accuracy of the test score equating for sample size of 300, observed from the equating methods and the smoothing techniques. The presmoothing techniques used were without presmoothing (TP), log-linear presmoothing (LL), and kernel presmoothing (KN), and whereas the equating methods used were the chain equipercentile equating method (EB) and the frequency estimation equipercentile equating method (EEF). TP, KN, EB, EEF, and the mean of the root mean square deviation )(RMSD as the relative accuracy criteria, were calculated by tailored program, while LL was calculated by Log-Linear SPSS-X program. The research conducted at 18 Private and State Senior High Schools in DKI Jakarta, for the third year students from Natural Science Program, during the first semester 2002/2003, in Physics concludes that only the relative accuracy of the test score equating for sample size of 300, using (TP and EEF) was higher than using (TP and EB) Abstrak S sebagai suatu tes yang baik, tidak mudah dan menyita waktu, namun pada sisi lain penskorannya mudah dan cepat. Pada kebanyakan program tes dalam skala besar, penyusunan tes-tes yang setara merupakan kegiatan yang sangat penting, untuk penanganan yang cepat, apabila terjadi kebocoran tes, dan untuk membandingkan hasil tes dari peserta yang menggunakan tes-tes yang berbeda itu. Hal yang sama juga dialami oleh sekolah sebagai suatu institusi pengelola pendidikan yang senantiasa berurusan dengan program tes, meskipun umumnya tidak dalam skala besar. Pendahuluan 2 Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes Seringkali dijumpai di sekolah, peserta tes yang berbeda harus diukur dengan tes yang berbeda, meskipun tes-tes itu belum tentu ekivalen, dan diharapkan dapat diukur sifat dan tuntutan pencapaian hasil yang dapat dibandingkan. Hal ini terjadi, misalnya pada situasi sekolah yang memiliki beberapa kelas paralel yang diajar oleh guru yang berbeda, atau ketika guru memberikan ulangan susulan kepada siswa-siswa yang absen pada saat ulangan dilaksanakan. Meskipun sampai taraf tertentu kesetaraan beberapa tes dapat diupayakan pada saat menyusun tes-tes itu sendiri, tetapi umumnya variasi taraf sukar antartes tetap terjadi (Swediati, 1997: 1). Jadi secara empirik membuat dua tes yang sama, tidak pernah secara sempurna paralel, terandalkan (reliable) atau unidimensional (Grounlund, 1985:169). Jika hasil tes itu digunakan untuk menentukan kenaikan kelas atau penjurusan program, tentunya hal itu menjadi tidak adil karena tidak dilakukan ekivalensi skor untuk tes yang berbeda itu. Masalah tersebut dapat diatasi dengan melakukan penyetaraan skor yang diperoleh dari peserta yang mengambil tes-tes itu. Proses statistik, dikenal sebagai metode penyetaraan (equating), telah dikembangkan untuk menangani masalah ini. Kenyataan menunjukkan bahwa sekolah- sekolah khususnya swasta, pada umumnya hanya terdiri dari beberapa kelas paralel pada satu tingkat kelas. Akibatnya, sulit diperoleh respons dari sejumlah besar peserta tes terhadap sejumlah butir. Untuk mengurangi efek dari kesalahan penarikan sampel, sehingga distribusi skor tes yang dihasilkan mendekati distribusi skor tes dari populasi, digunakan teknik penghalusan (smoothing) (Kolen, 1991: 261). Pada kepentingan yang lebih luas, memetakan kecenderungan mutu siswa setiap tahun dengan membandingkan kinerja siswa yang menggunakan tes-tes yang berbeda dan antisipasi cepat ketika terjadi kebocoran tes, juga merupakan suatu tuntutan. Berdasarkan paparan yang telah dikemukakan dalam latar belakang tersebut di atas, dapat diidentifikasikan beberapa faktor yang diduga berpengaruh terhadap akurasi relatif penyetaraan skor tes pada sampel kecil. Faktor-faktor yang perlu diteliti adalah, pengaruh: metode penyetaraan, teknik penghalusan, prapenghalusan dan pascapenghalusan, derajat penghalusan (degrees of smoothing) yang harus dipilih, ukuran sampel minimum, faktor distribusi kemampuan peserta tes, jenis mata pelajaran, tes daya dan tes kecepatan, desain pengumpulan data, panjang tes, dan bentuk tes, pada akurasi relatif penyetaraan skor tes untuk sampel dengan ukuran tertentu. Dari identifikasi masalah yang dikemukakan di atas, peneliti hanya membatasi masalah pada pengaruh metode penyetaraan dan teknik penghalusan pada akurasi penyetaraan skor tes untuk sampel dengan ukuran tertentu. Metode penyetaraan yang digunakan dalam penelitian ini ialah metode ekipersentil berantai (EB) dan metode ekipersentil estimasi frekuensi (EEF). Teknik penghalusan yang digunakan dalam penelitian ini ialah tanpa penghalusan (TP), log-linier (LL) dan kernel (KN). Penghalusan yang dilakukan adalah prapenghalusan pada distribusi skor tes, dan sampel yang digunakan berukuran 300. Desain pengumpulan data yang digunakan ialah desain grup nonekivalen-tes jangkar. Tes jangkar yang digunakan adalah tes jangkar internal. Banyak butir soal pada tes jangkar adalah ± 20% dari panjang tes. Berdasarkan latar belakang, identifikasi, dan pembatasan masalah yang telah dikemukakan di atas, masalah penelitian ini dirumuskan sebagai berikut. Apakah terdapat beda akurasi relatif penyetaraan skor tes untuk sampel berukuran 300 dengan: 1. TP dan EB, dan LL dan EB? 2. TP dan EB, dan KN dan EB? 3. LL dan EB, dan KN dan EB? 4. TP dan EEF, dan LL dan EEF? 5. TP dan EEF, dan KN dan EEF? 6. LL dan EEF, dan KN dan EEF? 7. TP dan EB, dan TP dan EEF? 8. LL dan EB, dan LL dan EEF? 9. KN dan EB, dan KN dan EEF? Pembatasan Masalah Perumusan Masalah Identifikasi Masalah 3Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes Tujuan penelitian ini adalah untuk meneliti apakah terdapat beda akurasi relatif penyetaraan skor tes untuk sampel berukuran 300 ditinjau dari dua faktor: pertama, faktor teknik prapenghalusan yaitu TP, LL, dan KN; dan kedua, faktor metode penyetaraan yaitu metode EB dan metode EEF. Melalui penelitian ini diharapkan dapat diketahui teknik prapenghalusan dan metode penyetaraan manakah yang menghasilkan akurasi relatif penyetaraan skor tes terbaik, jika dilakukan pada sampel berukuran 300. Pertama, manfaat teoritik. Dari sisi keilmuan, penelitian ini diharapkan dapat memberikan sedikit kontribusi bagi perkembangan pengukuran dalam psikometrika, yang banyak menggunakan statistika terapan, khususnya pada penyetaraan skor tes untuk ukuran sampel tertentu. Bagi peneliti pribadi dan para peneliti lainnya, hasil penelitian ini dapat digunakan sebagai landasan penelitian lanjutan, khususnya pada variabel-variabel yang diteliti, maupun variabel lainnya yang lebih kompleks yang berpengaruh pada pengukuran akurasi relatif penyetaraan skor tes untuk ukuran sampel tertentu. Kedua, manfaat praktis. Hasil penelitian ini dapat dimanfaatkan oleh berbagai pihak yang terkait dengan penyelenggaraan tes-tes atau ulangan- ulangan yang dilakukan secara berkala, misalnya oleh: (1) sekolah, khususnya sekolah-sekolah yang jumlah peserta didiknya relatif tidak banyak, baik secara mandiri atau bersama-sama, sehingga sekolah-sekolah dapat bekerja sama melakukan pengembangan tes-tes yang setara. Dengan membandingan kinerja siswa yang menggunakan tes-tes yang setara itu, pemutus kebijakan di sekolah dapat memproyeksikan kecenderungan mutu sekolah setiap tahun ajaran berdasarkan suatu kriteria yang ditetapkan oleh sekolah, dan melakukan evaluasi program pengajaran guru, serta membuat keputusan atau kebijakan yang terkait dengan proses belajar mengajar maupun program evaluasi belajar; (2) guru, bukan sekedar dituntut mampu menyusun soal berdasarkan isi materi ajar saja tetapi secara profesional mampu membuat kompilasi tes-tes yang dapat digunakan untuk mengevaluasi kemampuan siswa pada setiap semester atau tahun ajaran berdasarkan suatu kriteria yang ditetapkan, dan ia mampu melakukan perlakuan pengajaran lebih profesional dan bertanggung jawab. Dengan dimilikinya kompilasi tes yang setara, pada akhirnya akan meringankan beban guru, ketika melakukan tes-tes sub-sumatif dan sumatif; (3) siswa, pada gilirannya merasa memperoleh perlakuan yang lebih adil. Apabila ia karena suatu alasan yang dapat dipertanggungjawabkan, tidak dapat mengikuti ulangan umum atau ujian maka ia dapat mengikuti ulangan dan ujian susulan dengan tes yang setara, sehingga ia tidak merasa dirugikan atau diuntungkan. Skor Tes Naga, menyatakan skor tes sebagai hasil koreksi dari setiap butir yang dikerjakan peserta tes yang menampilkan jawaban benar atau salah (Naga, 1992: 20). Sampel pada Penyetaraan Sampel menurut Steel dan Torrie adalah bagian dari populasi, kadang-kadang mencakup seluruh populasi dan umumnya informasi dari sampel digunakan untuk penarikan kesimpulan tentang populasi itu (Steel dan H. Torrie, 1991: 13). Setiadi dalam penelitiannya terhadap estimasi parameter butir menyatakan bahwa sampel yang relatif kecil berukuran 100 atau 200 (Setiadi, 1997: 7), sedangkan Livingston dan Feryok melakukan penelitian pada penyetaraan ekipersentil estimasi frekuensi dengan penghalusan pada sampel berukuran 100 sampai dengan 3000 dan akurasi penyetaraan terjadi pada sampel berukuran 300 (Livingston dan Feryok, 1987: 9-10). Tujuan Penelitian Kegunaan Penelitian Kerangka Teoretis Melalui penelitian ini diharapkan dapat diketahui teknik prapenghalusan dan metode penyetaraan manakah yang menghasilkan akurasi relatif penyetaraan skor tes terbaik, jika dilakukan pada sampel berukuran 300. 4 Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes Kesalahan Penyetaraan Menurut Kolen, ada beberapa tipe kesalahan yang akan mempengaruhi interpretasi hasil dari aplikasi metode-metode penyetaraan, yaitu kesalahan penyetaraan acak (random equating error) dan kesalahan penyetaraan sistematik (systematic equating error) (Kolen, 1988: 34 –35). Kolen dan Brennan menyatakan bahwa kesalahan penyetaraan acak, terjadi karena data dikumpulkan dari suatu sampel dan bukan dari seluruh populasi; sedangkan kesalahan penyetaraan sistematik terjadi misalnya, asumsi statistikal pada metode penyetaraan dilanggar atau desain pengumpulan data tidak sesuai diimplementasikan atau jika kelompok-kelompok peserta tes yang digunakan untuk penyetaraan sangat berbeda secara substansial (Kolen dan Brennan, 1995: 210-211). Angoff, menyatakan bahwa standar kesalahan penyetaraan adalah deviasi standar dari skor-skor yang diubah ke skala tes Y yang berkorespondensi dengan suatu nilai tetap dari tes X (Angoff, 1984: p. 96). Akurasi Relatif Penyetaraan Glenn, dalam Mathematics Dictionary 4th edition, menjelaskan bahwa dalam statistik suatu kesalahan pengamatan adalah perbedaan antara suatu pengamatan dan nilai sesungguhnya atau nilai yang diharapkan terhadap semua faktor yang tidak terkontrol (Glenn James, 1976: 4, 139). Dari pendapat di atas, akurasi relatif penyetaraan dipahami sebagai ketepatan hasil suatu penyetaraan dibandingkan dengan ketepatan hasil penyetaraan lain. PengukuranAkurasi Relatif Penyetaraan Livingston menjelaskan cara mengkomputasi akurasi penyetaraan secara statistik sebagai RMSD (root mean square deviation) sebagai berikut: jika x adalah suatu skor pada tes A; yx adalah suatu skor pada tes B yang disetarakan terhadap x pada penyetaraan langsung dalam populasi; yxy adalah skor pada tes B yang setara terhadap x untuk replikasi ke j pada penyetaraan tes jangkar dan jika dilakukan untuk r replikasi, maka: (Livingston, 1993: 28-29). ( )∑ = −= r j xxy yy r RMSD 1 21 Selanjutnya Livingstone menyatakan bahwa rata- rata dari RMSD menunjukkan akurasi penyetaraan; rata-rata RMSD yang kecil menunjukkan akurasi yang lebih tinggi daripada rata-rata RMSD yang besar (Livingston, 1993: p. 34). Penyetaraan Skor Tes Barnard berpendapat, tidak ada definisi penyetaraan skor tes yang dapat diterima secara universal. (Barnard, 1996: 16). Penyetaraan didefinisikan oleh Crocker dan Algina sebagai suatu proses untuk menetapkan skor-skor ekivalen pada dua instrumen (Crocker dan Algina, 1986: 457). 1. Pengertian penyetaraan horizontal dan vertikal Holmes menyatakan penyetaraan horizontal sebagai proses konversi skor mentah yang digunakan untuk menyetarakan dua atau lebih tes yang didesain untuk mengukur atribut yang sama pada level pendidikan yang sama, sedangkan penyetaraan vertikal sebagai proses konversi skor mentah pada skala bersama (common scale) yang digunakan untuk menyetarakan tes-tes yang mengukur atribut yang sama tetapi pada level pendidikan yang berbeda. (Holmes, 1982: 139). 2. Pengertian tes jangkar (anchor test) Tes jangkar menurut Petersen, Kolen dan Hoover terdiri dari sejumlah butir, yang merupakan miniatur dari kedua tes yang disetarakan (memiliki keserupaan sedekat mungkin, baik konten maupun kedalaman materi dengan kedua tes yang disetarakan). Menurut Livingston, Dorans dan Wright, bahwa metode yang menggunakan skor tes jangkar adalah untuk menyesuaikan perbedaan kemampuan antara sampel- sampel tes baru dan lama (Livingston, Doran dan Wright, 1990: 75). Berdasarkan pengalaman dalam praktek (rule of thumb), Kolen dan Brennan menyatakan bahwa jumlah butir bersama paling tidak 20% dari panjang seluruh tes yang berisi 40 butir soal atau lebih dan meskipun tes sangat panjang, pada kasus ini 30 butir soal bersama sudah cukup (Kolen dan Brennan, 1995: 248). 3. Macam-macam desain penyetaraan Hambleton dan Swaminathan menyatakan ada tiga desain dasar yang secara luas digunakan untuk menyesaikan studi penyetaraan, ketiga desain itu adalah metode grup tunggal (single group method), metode 5Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes grup ekivalen (equivalent group method) dan metode tes jangkar (anchor test design). Jelas menurut Hambleton dan Swaminathan, variasi dari desain dasar itu dapat digunakan untuk menyetarakan dua tes (Hambleton dan Swaminathan, 1985: 198). Secara khusus Kolen dan Jarjoura menyatakan bahwa desain populasi nonkivalen-butir bersama (common item-nonquivalent populations design) digunakan untuk menyetarakan skor- skor teramati dari dua kelompok peserta tes dari populasi berbeda, yang diadministrasikan untuk tes-tes yang berbeda, dan setiap tes memiliki suatu subset butir bersama (Kolen dan Jarjoura, 1987: 43). 4. Macam-macam metode penyetaraan Harris dan Kolen, menggambarkan secara umum ada tiga metode penyetaraan yaitu penyetaraan linier, penyetaraan ekipersentil dan penyetaraan teori responsi butir (Harris dan Kolen, 1986: 36-37). Secara tradisional menurut Hambleton, Swaminathan dan Rogers, metode penytaraan ekipersentil dan linier telah digunakan untuk penyetaraan tes- tes (Hambleton dan Swaminathan, 1985: 123). 4.1. Metode penyetaraan ekipersentil berantai (chained equipercentile equating) Angoff menjelaskan metode penyetaraan EB yang disebutnya sebagai desain V sebagai berikut: tes X dan tes jangkar V disetarakan dengan metode penyetaraan ekipersentil demikian juga tes Y dan tes jangkar V, kemudian skor ekivalen pada X dan Y dicari untuk setiap skor dari tes jangkar V (Angoff, 1984: 115-116). 4.2. Metode penyetaraan ekipersentil estimasi frekuensi (frequency estimation equipercentile equating) Metode penyetaraan EEF didefinisikan oleh Kolen dan Brennan sebagai suatu metode untuk mengestimasi distribusi kumulatif skor-skor dari tes X dan tes Y untuk suatu populasi sintetik dari data yang dikumpulkan dengan menggunakan desain grup nonekivalen-butir bersama dan tara persentil diperoleh dari distribusi-distribusi kumulatif (Kolen dan Brennan, 1995: 137). Teknik Penghalusan (smoothing) Menurut Kolen tujuan penghalusan dapat dipandang sebagai usaha untuk mengurangi kesalahan dalam mengestimasi distribusi populasi yang diperoleh dari titik-titik skor (Kolen, 1991: 258-259). Berbeda dengan interpolasi, menurut Petersen, Kolen dan Hoover, pada penghalusan, fungsi yang dihasilkan tidak perlu melalui titik- titik data yang teramati (Petersen, Kolen dan Hoover, 1989: 249). ] Untuk data yang dikumpulkan dengan menggunakan desain tes jangkar, menurut Cook dan Petersen teknik analitik untuk penghalusan distribusi bivariat lebih tepat dilakukan sebelum penyetaraan (prapenghalusan) (Cook dan Petersen, 1987: 227). 1. Penghalusan pada sampel kecil Kolen menyatakan bahwa, penghalusan secara tipikal lebih berefek untuk ukuran sampel yang lebih kecil (Kolen, 1988: 34). Namun Lord mengindikasikan, meskipun penghalusan berpotensi untuk mengurangi kesalahan penyetaraan, hal ini dapat memunculkan bias yang tidak tampak meskipun dalam sampel besar (Lord, 1982: 174). 2. Jenis-jenis teknik penghalusan Menurut Kolen, ada tiga metode yang cukup fleksibel untuk menyusun kembali dengan memadai suatu keberagaman distribusi skor tes yaitu: metode kernel, metode berdasarkan model strong true-score dari Lord dan metode yang menggunakan model log-linier polinomial (Kolen, 1991: 257). 2.1. Pengertian teknik pengha-lusan loglinier Penghalusan LL menurut Scheuneman dan Bleistein memberikan suatu cara untuk menganalisis data kuantitatif melalui hubungan elemen-elemen dari tabel kontingensi (Scheuneman dan Bleistein, 1999: 224). Menurut Kennedy dan Hak, algoritma untuk estimasi kebolehjadian maksimum untuk metode di atas dapat menggunakan program BMDP4F, SASCAT-MOD atau SPSS-X LOG- LINIER atau dengan program komputer lainnya (Kennedy dan Hak, 1997: 571). 2.2. Pengertian teknik pengha-lusan kernel Menurut Cope dan Kolen, gagasan di balik estimasi KN adalah untuk membentangkan kepadatan dari suatu titik skor teramati dengan menggunakan suatu fungsi probabilitas kepadatan yang diacu sebagai kernel (Cope dan Kolen, 1990: 4). Selanjutnya Cope dan Kolen menyatakan bahwa estimator KN dikembangkan untuk distribusi skor mentah yang diskrit dengan 6 Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes menggunakan suatu kernel binomial untuk menghasilkan suatu estimasi kepadatan diskrit (Cope dan Kolen, 1990: 4). Estimator KN menurut Kolen, adalah probabilitas binomial yang menggunakan parameter berhasil 0,5 sehingga kernel simetrik; parameter h yang diatur oleh peneliti adalah suatu bilangan genap positif yang merupakan parameter binomial coba-coba (binomial number of trails parameter) (Kolen, 1991: 259). Secara lebih terinci Kolen menjelaskan sebagai berikut: untuk suatu tes dengan K butir dan suatu distribusi sampel ; i = 0,………, K dan untuk 0 di tempat lain, estimator kernel adalah: di mana h adalah bilangan bulat genap dan kepadatan binomialnya adalah: Jadi fh(i) adalah suatu kepadatan sepanjang jangkauan i = -h/2,…….K,……. h/2. Bagaimanapun, perhatian kita adalah mengestimasi sepanjang jangkauan skor tes, i = 0, 1, ………., K. Kesalahan estimasi validasi silang untuk penghalusan kernel (Errh) menurut Hanson dapat dihitung secara efisien dengan menggunakan rumus: di mana n ialah jumlah responden dan K ialah level skor dalam jangkauan skor tes (0, 1, 2, ............K). Dicari nilai h yang menghasilkan Errh minimum. Beberapa hasil penelitian terdahulu yang relevan dengan penelitian ini, dapat dikemukakan sebagai berikut: Kolen pada penelitiannya tentang keefektivan penghalusan secara analitik pada penyetaraan ekipersentil, menyatakan bahwa banyak teknik penghalusan, cocok untuk setiap metode ( )( ) 0,5 1 0,5 0,5 ( , )0,5h mm h hh hB m h C m h m m − = − = = [ ]2 0 ( / 2 )2( ) ( ) ( ) 1 K K h h h I i o B h hnErr f i f i f i n n = = = − − − ∑ ∑ penyetaraan ekipersentil, dan secara umum ketepatan penyetaraan meningkat jika ukuran sampel bertambah (Kolen, 1984; 35-36). Menurut penelitian Kolen dan Brennan, metode EB memiliki beberapa kelemahan, yaitu: metode ini tidak membutuhkan pertimbangan dari distribusi gabungan skor total dan skor tes jangkar, sehingga secara komputasional sangat kurang intensif daripada metode EEF, dan kedua, metode ini tidak tergabung secara langsung dengan populasi sintetik sehingga tidak jelas untuk populasi mana hubungan itu berlaku atau ditujukan agar berlaku (Kolen dan Brennan, 1995: 149). Braun dan Holland mengindikasikan bahwa penyetaraan EB dan EEF secara umum tidak menghasilkan hasil yang sama, walaupun jika asumsi untuk EEF dipegang (Braun dan Holland, 1982: 42). Kolen dari hasil penelitiannya terhadap metode-metode penghalusan untuk mengestimasi distribusi skor tes, juga mengindikasikan bahwa kekuatan metode KNl adalah kesederhanaannya sehingga dengan program komputer mudah diimplementasikan namun untuk tujuan mengestimasi distribusi dalam prosedur psikometrik seperti pada penyetaraan menimbulkan distorsi pada ujung-ujung distribusi yang dapat menimbulkan problematik (Kolen, 1991: 279). Selanjutnya penelitian yang dilakukan Kolen, menunjukkan bahwa penghalusan KN sering kali menimbulkan estimasi distribusi yang tampak tidak rata atau melonjak-lonjak (bumpy) atau menyimpang secara sistematik (Kolen, 1991: 263). Dari penelitian terhadap perbandingan penghalusan univariat dan bivariat pada EEF yang dilakukan oleh Livingston dan Feryok disimpulkan bahwa penghalusan KN pada distribusi gabungan dari sampel berukuran 100 dan 300 peserta tes, secara substansial memperbaiki hasil penyetaraan, bahkan pada sampel dari 1000 dan 3000 peserta tes penghalusan pada metode ini tidak menghasilkan perbaikan (Livingston dan Feryok, 1987: 1). Penelitian Livingston terhadap penggunaan penghalusan LL pada penyetaraan EB dengan menggunakan sampel kecil menyimpulkan, bahwa akan lebih spekulatif jika menggeneralisasi kesimpulan bahwa penghalusan LL juga akan menghasilkan hasil terbaik jika digunakan pada Hasil Penelitian yang Relevan / 2 / 2 ( ) ( / 2 ) ( ) i h h j i h f i B j i h h f j + = − = − +∑ 7Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes metode penyetaraan ekipersentil lain seperti EEF, meskipun mungkin akan mengikuti pola serupa (Livingston, 1993: 38). Kolen, dari hasil penelitiannya terhadap berbagai metode penghalusan untuk mengestimasi distribusi-distribusi skor tes menyimpulkan bahwa metode LL menghasilkan estimasi kesalahan lebih kecil daripada metode KN untuk kebanyakan ukuran sampel untuk tes studi sosial ACT (American College Testing) dan ujian sertifikasi namun metode KN menghasilkan estimasi kesalahan lebih kecil daripada metode LL untuk tes matematik ACT tetapi semua untuk ukuran sampel terbesar (Kolen, 1991: 272). 1. Perbedaan Akurasi Relatif Penyetaraan Skor Tes Untuk Sampel Berukuran 300 dengan TP dan EB, dan dengan LL dan EB Penghalusan mengindikasikan sangat potensial untuk memperbaiki hasil penyetaraan karena mengurangi kesalahan penarikan sampel. Dari uraian di atas, diduga akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan TP dan EB lebih rendah daripada dengan LL dan EB atau EBLLEBTP RMSDRMSD ++ > . 2. Perbedaan Akurasi Relatif Penyetaraan Skor Tes Untuk Sampel Berukuran 300 dengan TP dan EB, dan dengan KN dan EB Sama dengan prapenghalusan LL, prapenghalusan KN juga memperbaiki hasil penyetaraan, meskipun perbaikan oleh KN kurang, dibandingkan dengan LL. Dari uraian di atas, diduga akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan TP dan EB lebih rendah daripada dengan KN dan EB atau EBKNEBTP RMSDRMSD ++ > 3. Perbedaan Akurasi Relatif Penyetaraan Skor Tes Untuk Sampel Berukuran 300 dengan LL dan EB, dan dengan KN dan EB Prapenghalusan LL pada EB untuk sampel relatif kecil, dalam penelitian mengindikasikan hasil hubungan penyetaraan yang baik, meskipun demikian sangat spekulatif untuk menyatakan bahwa LL juga akan menghasilkan hubungan penyetaraan yang baik untuk metode penyataraan lainnya. Sedangkan penghalusan KN seringkali menyimpang secara sistematik dan menghasikan distorsi pada ujung-ujung distribusi. Jadi KN meskipun memperbaiki estimasi, namun perbaikan itu kurang dibandingkan dengan teknik penghalusan lainnya. Dari uraian di atas diduga akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan LL dan EB lebih tinggi daripada dengan KN dan EB atau EBKNEBLL RMSDRMSD ++ < . 4. Perbedaan Akurasi Relatif Penyetaraan Skor Tes Untuk Sampel Berukuran 300 dengan TP dan EEF, dan dengan LL dan EEF Penelitian menunjukkan bahwa penghalusan bivariat pada penyetaraan ekipersentil-butir bersama, menghasilkan fungsi penyetaraan yang lebih akurat daripada tanpa penghalusan, dan tidak tergantung teknik penghalusannya. Dari uraian di atas, diduga akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan TP dan EEF lebih rendah daripada dengan LL dan EEF atau BEFLLEEFTP RMSDRMSD ++ > 5. Perbedaan Akurasi Relatif Penye-taraan Skor Tes Untuk Sampel Berukuran 300 dengan TP dan EEF, dan dengan KN dan EEF Penelitian menyimpulkan bahwa hasil penyetaraan dari distribusi skor diperhalus dengan teknik apapun, jauh lebih baik daripada tanpa penghalusan. Dari uraian di atas, diduga akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan TP dan EEF lebih rendah daripada dengan KN dan EEF atau EEFTPRMSD + EEFKNRMSD +> 6. Perbedaan Akurasi Relatif Penyetaraan Skor Tes Untuk Sampel Berukuran 300 dengan LL dan EEF, dan dengan KN dan EEF Penelitian pada mata pelajaran Matematika mengindikasikan bahwa prapenghalusan KN justru menghasilkan estimasi kesalahan lebih kecil daripada LL, meskipun penelitian itu dilakukan untuk sampel besar. Penelitian ini dilakukan pada mata pelajaran Fisika, yang banyak menggunakan Matematika sebagai alat bantu penyelesaian soalnya, maka seandainya digunakan pada sampel besar maka prapenghalusan KN tentunya akan menghasilkan akurasi yang lebih baik daripada LL. Dari uraian di atas diduga akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan LL dan EEf lebih rendah daripada Kerangka Berpikir 8 Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes dengan KN dan EEF atau EEFKNEEFLL RMSDRMSD ++ > 7. Perbedaan Akurasi Relatif Penyetaraan Skor Tes Untuk Sampel Berukuran 300 dengan TP dan EB, dan dengan TP dan EEF Penelitian membuktikan bahwa metode EB dan EEF tidak menghasilkan hasil penyetaraan yang sama, Metode EB memiliki kelemahan karena tidak mempertimbangkan distribusi gabungan dari skor total dan skor tes jangkarnya sehingga secara komputasional kurang intensif daripada metode EEF. Dari uraian di atas diduga bahwa akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan TP dan EB rendah daripada dengan TP dan EEF atau EBTPRMSD + EEFTPRMSD +> 8. Perbedaan Akurasi Relatif Penyetaraan Skor Tes Untuk Sampel Berukuran 300 dengan LL dan EB, dan dengan LL dan EEF Penelitian-penelitian yang dilakukan dengan menggunakan berbagai teknik prapenghalusan pada berbagai metode penyetaraan, menunjukkan beda akurasi pada hasil penyetaraannya. Prapenghalusan LL pada penyetaraan EB dengan menggunakan sampel kecil, menunjukkan hasil yang sangat baik, namun hal itu tidak dapat digeneralisasikan pada penggunaan metode EEF, meskipun hal itu mungkin akan mengikuti pola yang serupa. Dari uraian di atas diduga akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan LL dan EB lebih tinggi daripada dengan LL dan EEF atau EEFLLEBLL RMSDRMSD ++ < 9. Perbedaan Akurasi Relatif Penyetaraan Skor Tes Untuk Sampel Berukuran 300 dengan KN dan EB, dan dengan KN dan EEF Pada penelitian terhadap implementasi prapenghalusan LL dan KN untuk kebanyakan ukuran sampel pada tes-tes matematik, KN menghasilkan estimasi kesalahan lebih kecil daripada LL. Penggunaan desain pengumpulan data grup nonekivalen-tes jangkar, seperti pada penyetaraan EEF harus melibatkan populasi sintetik, sedangkan pada penyetaraan EB tidak harus melibatkan populasi sintetik sehingga tidak jelas bahwa EB melibatkan distribusi gabungan skor total dan skor tes jangkarnya, untuk kedua populasi. Dari uraian di atas diduga akurasi relatif penyetaraan skor tes untuk berukuran 300 dengan KN dan EB lebih rendah daripada dengan KN dan EEF atau EEFKNEBKN RMSDRMSD ++ > Berdasarkan landasan teori dan kerangka berpikir yang telah diuraikan di atas, maka sesuai dengan permasalahan dan tujuan penelitian, dapat diajukan hipotesis yang akan diuji secara empirik melalui penelitian ini. Akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, 1. TP dan EB lebih rendah daripada LL dan EB atau 2. TP dan EB lebih rendah daripada KN dan EB atau 3. LL dan EB lebih tinggi daripada KN dan EB atau 4. TP dan EEF lebih rendah daripada LL dan EEFi atau 5. TP dan EEF lebih rendah daripada KN dan EEF atau & &TP EEF KN EEFRMSD RMSD> 6. LL dan EEF lebih rendah daripada KN dan EEF atau && KN EEFLL EEFRM SD RM SD> 7. TP dan EB lebih tinggi daripada TP dan EEF atau & &TP EB TP EEFRMSD RMSD> 8. LL dan EB lebih tinggi daripada LL dan EEF atau 9. KN dan EB lebih rendah daripada KN dan EEF atau Tujuan Operasional Penelitian Tujuan penelitian ini secara operaional adalah untuk menjawab masalah-masalah penelitian yang terkait dengan akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, ditinjau dari metode penyetaraan dan teknik prapengalusan. Berdasarkan perumusan masalah yang telah dikemukakan, maka tujuan khusus penelitian ini adalah untuk mengetahui, perbedaan akurasi relatif hasil penyetaraan EB dengan: TP, LL dan Pengajuan Hipotesis & &KN EB KN EEFRMSD RMSD> & &LL EB LL EEFRMSD RMSD< & &TP EB KN EBRMSD RMSD> & &TP EB LL EBRMSD RMSD> & &LL EB KN EBRMSD RMSD< & &TP EEF LL BEFRMSD RMSD> Metodologi Penelitian 9Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes KN; serta hasil penyetaraan EEF dengan TP, LL dan KN, untuk sampel sebesar 300. Penelitian ini dilaksanakan di SMUK I, II, III, IV, V dan VI BPK PENABUR Jakarta; SMUK Gonzaga; SMUK YPK Ketapang; SMUK Triana; SMUK BHK; SMUK Tarsisius; SMUN 2; SMUN I5; SMUN 25; SMUN 36; SMUN 55; SMUN 70; dan SMUN 98, dengan subyek penelitian siswa kelas III program IPA semester I tahun ajaran 2002 – 2003. Metode yang digunakan dalam penelitian ini adalah metode eksprimen, untuk menguji perbedaan akurasi relatif hasil penyetaraan (TP&EB) dan (LL&EB); (TP&EB) dan (KN&EB); (LL&EB) dan (KN&EB); (TP&EEF) dan (LL&EEF); (TP&EEF) dan (KN&EEF); (LL&EEF) dan (KN&EEF); (TP&EB) dan (TP&EEF); (LL&EB) dan (LL&EEF); serta (KN&EB) dan (KN&EEF), untuk sampel sebesar 300. Variabel dalam penelitian ini terdiri dari: (1) variabel bebas dan (2) variabel terikat. Adapun variabel bebasnya adalah keenam hasil penyetaraan dengan menggunakan: TP, LL dan KN, pada EB dan EEF, sedangkan variabel terikatnya adalah akurasi relatif penyetaraan skor tes untuk sampel berukuran 300. Hal yang ditinjau dalam penelitian ini adalah akurasi penyetaraan yang dinyatakan sebagai RMSD rata-rata ( RMSD) dari RMSD ekivalensi ekipersentil untuk 25 kali replikasi, dengan rancangan sebagai berikut. Tempat dan Waktu Penelitian Metode Penelitian Populasi penelitian ini adalah siswa kelas III SMU program IPA semester satu tahun ajaran 2002/ 2003 dari kedelapanbelas SMU di atas. Populasi ini terdiri dari 1600 orang siswa, 804 orang siswa sebagai responden instrumen penelitian A, dan 796 orang siswa sebagai responden instrumen penelitian B. Desain pengumpulan data yang digunakan adalah desain grup nonekivalen-tes jangkar. Tes jangkar yang digunakan merupakan tes jangkar internal. Penarikan sampel, dilakukan dengan penarikan sampel matriks (matrix sampling), yaitu pensampelan peserta, masing-masing sebanyak 300 orang siswa untuk setiap instrumen penelitian. Kedua instrumen penelitian A dan B dibuat berdasarkan kisi-kisi soal dengan memperhatikan aspek kemampuan ranah kognitif dan taraf sukar, pada pokok/subpokok bahasan Gerak Harmonik, Gelombang dan Bunyi sesuai dengan GBPP mata pelajaran Fisika Kurikulum SMU 1994 Yang Disempurnakan untuk kelas III SMU program Ilmu Pengetahuan Alam. Kedua instrumen diharapkan memiliki keserupaan baik isi maupun kedalaman materinya. Setiap instrumen penelitian A dan B memuat 50 butir soal pilihan ganda, dengan 5 (lima) alternatif pilihan jawaban benar. Tes jangkar terdiri dari 10 butir soal (± 20% dari panjang tes). Tes jangkar terdiri dari butir-butir soal yang telah di-EBTANAS-kan atau di-UAN-kan sehingga butir-butir soal tersebut telah divalidasi, dan dapat digunakan untuk tes jangkar. Pemilihan butir-butir soal untuk tes jangkar diupayakan agar merupakan miniatur dari kedua instrumen penelitian. Skor tes yang diperoleh dari kedua instrumen penelitian ini diacak sederhana dengan sampel matriks, yaitu secara pensampelan peserta, artinya setiap kali replikasi diambil sebanyak 300 peserta tes yang menjawab semua butir tes, kemudian diperlakukan prapenghalusan LL dan KN. Distribusi skor setelah prapenghalusan disetarakan Populasi dan Sampel Penelitian MP EB EEF EB EEF EB EEF TP&EB TP&EEF LL&EB LL&EEF KN&EB KN&EEF RMSD RMSD RMSD RMSD RMSD RMSD PP TP LL KN PP&MP Keterangan : PP: Teknik prapenghalusan; MP: Metode penyetaraan; TP: Tanpa prapenghalusan; LL: Prapenghalusan log-linier; KN: Prapenghalusan kernel: EB: Metode penyetaraan ekipersentil berantai; EEF: Metode penyetaraan ekipersentil estimasi frekuensi; RMSD : rata-rata RMSD Matriks Rancangan Penelitian Instrumen Penelitian 10 Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes dengan metode penyetaraan EB dan EEF, kemudian dihitung ekivalensi ekipersentilnya. Dihitung RMSD (root mean square deviation) dari ekivalensi ekipersentil untuk setiap kali replikasi dan rata-rata RMSD sebagai akurasi relatif penyetaraan skor tes. Konseptual Variabel Penelitian Akurasi relatif penyetaraan skor tes ialah derajat ketepatan relatif hasil penyetaraan dua skor tes sampel berukuran 300, dari dua instrumen penelitian yang berbeda, yang diperlakukan dengan teknik penghalusan dan atau metode penyetaraan berbeda. Teknik prapenghalusan log-linier (LL) ialah cara untuk mengurangi kesalahan pengestimasian distribusi skor tes dari instrumen penelitian dan dilakukan sebelum penyetaraan, dengan mengubah fungsi polinomial dari distribusi skor tes menjadi log dari kepadatan distribusi skor tes dengan menggunakan metode statistik tertentu. Teknik prapenghalusan kernel (KN) ialah cara untuk mengurangi kesalahan pengestimasian distribusi skor tes dari instrumen penelitian dan dilakukan sebelum penyetaraan, dengan mengubah fung-si polinomial dari distribusi skor tes menjadi probabilitas binomial dengan menggunakan metode statistik tertentu. Metode penyetaraan ekipersentil berantai (EB) ialah cara mencari ekivalensi ekipersentil dua skor tes dari dua instrumen penelitian yang berbeda, dengan menggunakan statistik tertentu. Ekivalensi ekipersentil dihitung dengan metode penyetaraan ekipersentil langsung secara terpisah pada skor tes kedua instrumen, masing-masing terhadap tes jangkarnya, tanpa menggunakan populasi sintetik. Metode penyetaraan ekipersentil estimasi frekuensi (EEF) ialah cara mencari ekivalensi ekipersentil dua skor tes dari dua instrumen penelitian yang berbeda dengan menggunakan statistik tertentu, Ekivalensi ekipersentil dihitung dengan mengestimasi distribusi kumulatif dua skor tes masing-masing terhadap tes jangkarnya, dengan menggunakan populasi sintetik. Operasional Variabel Penelitian Akurasi relatif penyetaraan skor tes ialah rata-rata RMSD ( R ) dari ekivalensi persentil untuk seluruh replikasi yang dilakukan. Ekivalensi persentil dihitung dari dua skor tes dengan prapenghalusan TP, LL atau KN, dan metode penyetaraan EB atau EEF. Teknik prapenghalusan log-linier (LL) ialah cara untuk mengurangi kesalahan pengestimasian distribusi skor tes dari dua instrumen penelitian dengan menggunakan program log-lin SPSS X. Teknik prapenghalusan kernel (KN) adalah cara untuk mengurangi kesalahan pengestimasian distribusi skor tes dari dua instrumen penelitian, dan dilakukan dengan menghitung kepadatan binomial dan estimator kernel. Metode penyetaraan ekipersentil berantai (EB) ialah cara mencari ekivalensi persentil skor tes, yang dihitung dengan mencari: (1) ekivalensi ekipersentil skor tes instrumen pertama terhadap skor jangkarnya pada populasi pertama [ey1(x)]; (2) tara peringkat ekipersentil [ey1(x)] terhadap skor tes butir bersama instrumen kedua dan diperoleh P[ey1(x)]; (3) ekivalensi ekipersentil skor tes instrumen kedua terhadap P[ey1(x)] adalah ey(EB), merupakan ekivalensi ekipesentil untuk metode ekipersentil berantai (eyEB). Metode ekipersentil estimasi frekuensi (EEF) ialah cara mencari ekivalensi ekipersentil skor tes, yang dihitung dengan mencari: (1) distribusi gabungan dari skor total pada instrumen penelitian pertama dan tes jangkarnya untuk populasi pertama dan distribusi gabungan dari skor total pada intrumen penelitian kedua dan tes jangkarnya untuk populasi kedua; (2) distribusi kondisional skor tes instrumen penelitian kedua untuk mendapat skor v dari tes jangkar pada populasi kedua, (3) distribusi gabungan dari skor instrumen penelitian kedua dan skor tes jangkar untuk populasi pertama; (4) frekuensi skor tes instrumen pertama dan kedua untuk populasi sintetik dan (5) tara peringkat persentil skor tes kedua instrumen pada populasi sintetik adalah ey(EEF), merupakan ekivalensi ekipersentil untuk ekipersentil estimasi frekuensi (eyEEF). Sebelum kedua instrumen penelitian digunakan, terlebih dahulu dilakukan ujicoba untuk memperoleh validitas empirik dari setiap butir dan reliabilitas instrumen. Ujicoba intrumen penelitian A dilakukan di SMUK IPEKA Tomang dan instrumen penelitian B di salah satu kelas III IPA SMUK II BPK PENABUR Jakarta. Kualitas Butir 11Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes Pada ujicoba instrumen penelitian A untuk 39 orang siswa, diperolah 30 butir soal sahih yang memiliki rpbis ≥ 0,316. Dari 30 butir soal instrumen A diperoleh r KR-20 = 0,746; sedangkan instrumen penelitian B untuk 38 orang siswa, diperoleh 30 butir soal sahih yang memiliki rpbis ≥ 0,316. Dari 30 butir soal instrumen B diperoleh rKR-20 = 0,807. Ketigapuluh butir soal instrumen penelitian baik A maupun B ditambah dengan 10 butir soal tes jangkar, merupakan instrumen penelitian yang digunakan untuk penelitian. 1. Grafik skor tes-RMSD dari ekivalensi ekipersentil untuk data pada penyetaraan EB dan penyetaraan EEF, a. tanpa prapenghalusan; b. dengan prapenghalusan log-linier; dan c. dengan prapenghalusan kernel. Hipotesis Statistik Gabungan Kelompok Hipotesis 1. (TP&EB) & (LL&EB) H 0 : µ AKUR1 ≥ µ AKUR 2 H 1 : µ AKUR1 < µ AKUR 2 2. (TP&EB) & (KN&EB) H 0 : µ AKUR 1 ≥ µ AKUR 2 H 1 : µ AKUR 1 < µ AKUR 2 3. (LL&EB) & (KN&EB) H 0 : µ AKUR 1 ≤ µ AKUR 2 H 1 : µ AKUR 1 > µ AKUR 2 4. (TP&EEF) & (LL&EEF) H 0 : µ AKUR 1 ≥ µ AKUR 2 H 1 : µ AKUR 1 < µ AKUR 2 5. (TP&EEF) & (KN&EEF) H 0 : µ AKUR 1 ≥ µ AKUR 2 H 1 : µ AKUR 1 < µ AKUR 2 6. (LL&EEF) & (KN&EEF) H 0 : µ AKUR 1 ≥ µ AKUR 2 H 1 : µ AKUR 1 < µ AKUR 2 7. (TP&EEB) & (TP&EEF) H 0 : µ AKUR 1 ≥ µ AKUR 2 H 1 : µ AKUR 1 < µ AKUR 2 8. (LL&EB) & (LL&EEF) H 0 : µ AKUR 1 ≤ µ RMSD2 H 1 : µ AKUR 1 > µ AKUR 2 9. (KN&EB) & (KN&EEF) H 0 : µ AKUR 1 ≥ µ AKUR 2 H 1 : µ AKUR 1 < µ AKUR 2 Keterangan: * µ AKUR1 ; µ AKUR1 >µ AKUR2 atau . Hasil Penelitian 2. RMSD dan DS RMSD dari ekivalensi ekipersentil dari 25 replikasi dan setiap replikasi terdiri dari 300 responden untuk keenam kelompok sepanjang rentang skor 4 – 34 3. Grafik RMSD dari ekivalensi ekipersetil secara grafis RMSD TP&EB TP&EEF LL&EB LL&EEF KN&EB KN&EEF 1.5157 0.4649 1.5169 4.4991 1.1797 0.7549 DS RMSD 1.8943 0.2726 1.8967 7.7848 1.1774 0.6348 RMSD 0 2 4 6 8 10 0 4 8 12 16 20 24 28 32 36 SK OR TP & EB TP & EEF 0 5 10 15 20 25 30 0 4 8 12 16 20 24 28 32 36 SKOR LL & EB LL & EEF 0 1 2 3 4 5 0 4 8 12 16 20 24 28 32 36 SKOR KN & EB KN & EEF 12 Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes Uji Normalitas Untuk mengetahui apakah data RMSD ini berasal dari populasi yang berdistribusi normal, maka dilakukan uji normalitas dengan menggunakan uji Lilliefors untuk keenam kelompok data sebagai berikut: Rangkuman hasil uji normalitas dengan uji Lilliefors keenam kelompok pada taraf signifikansi α = 5% Homogenitas varians populasi dari keenam data RMSD diuji dengan uji Bartlett, diperoleh: χ2 hitung = 336.9019 > χ2 tabel (0.95, 5) = 11.1. Sehingga dapat disimpulkan varians RMSD dari ekivalensi ekipersentil keenam kelompok itu tidak homogen. Karena prasyarat normalitas dan homogenitas tidak dipenuhi, maka hipotesis penelitian ini diuji dengan Analisis Varian (ANAVA) Satu Arah dengan pendekatan statistik nonparametrik.parametrik. Dengan menggunakan uji Kruskal-Wallis (Murti, 1996:97), diperoleh: n = jumlah seluruh sampel = 186; k = jumah kelompok = 6: jR =jumlah peringkat tiap kelompok. Jadi, paling sedikit ada satu kelompok mempunyai RMSD berbeda RMSD dari kelompok lainnya. Selanjutnya untuk mengetahui kelompok- kelompok mana yang memiliki peringkat RMSD berbeda, dilakukan Uji Komparasi Ganda (Multiple Comparison). Menurut Snedecor dan Cochran, Uji Komparasi Ganda digunakan untuk menampilkan sejumlah signifikansi tes-tes atau mengkonstruksi sejumlah interval taraf konfidensi ketika menganalisis kelompok- kelompok data (Snedecor dan Cochran, 1982: p. 233). Menurut Naga, penentuan kelompok yang berbeda pada uji Kruskal-Wallis, ialah yang memenuhi syarat: dan ialah peringkat rata-rata untuk kelompok i dan j; k ialah banyaknya kelompok (Naga, 2002: 30). k = 6, n = 186 dan a = 5%, diperoleh: Uji Homogenitas Pengujian Hipotesis H = 19.58 ' '( ) ( 1) 1 1 ; 12i j i j n nR R z n nα + − ≥ + ' ( 1)k k α α = − 2 (0.95, 5)tabelH χ= = 19.58 > = 11.1. 2 (0.95,5)tabelH χ= Lhitung L tabel Jumlah Kelompok Sampel 1. TP&EB 31 0.2772 0.1591 2. LL &EB 31 0.2772 0.1591 3. KN & EB 31 0.2593 0.1591 4. TP & EEF 31 0.2693 0.1591 5. LL & EEF 31 0.3328 0.1591 6. KN & EEF 31 0.3025 0.1591 Kesimpulan keenam kelompok tidak normal. Pengujian Persyaratan Analisis 13Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes a. Penarikan kesimpulan pada uji statistikal Wright menyatakan bahwa tujuan pengukuran adalah penarikan kesimpulan. Masalah pertama yang dihadapi pada penarikan kesimpulan adalah bagaimana membedakan “inference” (kesimpulan) dan “missing” (salah tanggap); hal ini terjadi karena data yang luput pada usaha pengumpulan data secara aktual (Wright, — : 2). Penarikan kesimpulan itu memerlukan solusi statistikal. Penghalusan menurut Kolen dan Jarjoura (Kolen dan Jarjoura, 1987: 43), dan penyetaraan menurut Barnard, adalah proses statistikal (Barnard, 1996: 1). Menurut Angoff, disadari sepenuhnya bahwa solusi statistikal secara mendasar tidak lebih tepat dari data yang mendasarinya dan tidak dapat mempertahankan selanjutnya metode- metode yang digunakan untuk memperolehnya, serta asumsi yang mendasarinya (Angoff, 1984: 139). Wright menyarankan, data yang diduga menimbulkan salah tanggap itu tetap dapat digunakan dengan pertama, menggunakan suatu proses stokhastik yang relevan dengan (dicari dengan program Mini Tab) ' 31 .66 . 10α −= ' 3( ) (1.66 .10 ) 2.93644z zα −= = '( ) ( 1) 1 1 40.16 12 i j n n z n nα + + =z tabel 9. = 14.1; terima Ho ( ) ( )& &TP EB LL EBR R− 5. = 27.77; terima Ho ( ) ( )& &TP EB KN EBR R− ( ) ( )& &LL EB KN EBR R− ( ) ( )& &TP EEF LL EEFR R− ( ) ( )& 7TP EEF KN EEFR R− ( ) ( )& &LL EEF KN EEFR R− ( ) ( )& &TP EB TP EEFR R− ( ) ( )& &LL EB LL EEFR R− ( ) ( )& &KN EB KN EEFR R− 1. = 0.74; terima Ho 2. = 9.42; terima Ho 3. = 10.16; terima Ho 4. = 32; terima Ho 6. = 4.23; terima Ho 7. = 51.29; tolak Ho 8. = 20.03; terima Ho Rangkuman hasil Uji Komparasi Ganda rumus yang stabil mulai dari ketepatan data mentah hingga penarikan kesimpulan; dan kedua mencari model matematik yang dapat berpengaruh pada proses stokhastik yang menghasilkan estimasi stabil (langkah kedua ini diakui oleh Wright tampaknya rumit) (Wright, —: 2-3). b. Ukuran Sampel Livingston dan Feryok pada penelitian terhadap penyetaraan ekipersentil estimasi frekuensi dan penghalusan kernel, membuktikan bahwa akurasi penyetaraan terjadi pada sampel berukuran 300 (Livingston dan Feryok, 1987: p. 9-10); sedangkan Jarjoura dan Kolen menyarankan, jika digunakan kesalahan penyetaraan sebagai indikator akurasi penyetaraan ekipersentil dengan menggunakan desain nonekivalen butir bersama, maka secara praktikal harus digunakan sampel berukuran lebih besar dari 800 (Jarjoura dan Kolen, 1985: 138). c. Penghalusan Kolen menyatakan bahwa penghalusan secara tipikal lebih berefek untuk ukuran sampel yang lebih kecil (Kolen, 1988: 34). Khususnya pada prapenghalusan, Kolen dan Brennan menyatakan bahwa akurasi distribusi tersebut krusial, karena salah satu sifat penting yang berkaitan dengan akurasi adalah menjaga agar momen dari distribusi diperhalus paling tidak memiliki momen sentral yang sama dengan momen sentral dari distribusi teramati (Kolen dan Brennan, 1995: 71-72). Lord mengindikasikan, bahwa penghalusan meskipun berpotensi untuk mengurangi kesalahan penyetaraan, hal ini dapat memunculkan bias yang tidak tampak meskipun dalam sampel besar (Lord, 1982: 174). Hal ini merupakan indikasi bahwa penghalusan tidak sekedar memerlukan sampel besar, tetapi ada faktor-faktor lain yang perlu diperhatikan ketika melakukan penghalusan, antara lain keserupaan antara momen sentral dari distribusi skor diperhalus, dan dari distribusi skor teramati. Menurut Kolen dan Brennan, bagaimanapun bahaya dari penggunaan metode penghalusan adalah hasil estimasi dari distribusi populasi meskipun lebih halus, mungkin merupakan estimasi yang lebih buruk dari distribusi populasi atau hubungan Pembahasan Hasil Penelitian 14 Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes penyetaraan, dibandingkan dengan tanpa penghalusan, misalnya hubungan penyetaraan menjadi tidak beraturan walaupun telah diperhalus; kualitas dari penghalusan secara analitik merupakan suatu isu empirik. (Kolen dan Brennan, 1995: 66). d. Validitas silang Menurut Kolen, efektivitas dari prosedur penghalusan secara analitik pada penyetaraan ekipersentil, ditentukan dengan membandingkan hasil-hasil penyetaraannya, dengan menggunakan validitas silang untuk berbagai sampel berukuran 500 hingga 2500 peserta tes (Kolen, 1984: 25). Jadi, pada hasil penyetaraan dengan penghalusan, di samping faktor ukuran sampel dan keserupaan momen sentral dari data yang diperhalus dan data teramati, maka faktor lain yang juga harus diperhatikan, ialah dilakukannya validitas silang, dan atau tersedianya data dengan berbagai bentuk distribusi dan ukuran sampel. e. Pemilihan derajat penghalusan dan kecocokan model Pemilihan derajat penghalusan untuk memilih kecocokkan model, di samping ukuran sampel dan validitas silang, merupakan faktor yang sangat menentukan keefektifan penghalusan, paling tidak untuk mempertahankan keserupaan antara momen sentral dari distribusi skor butir bersama serta distribusi skor total, sebelum dan setelah penghalusan, sehingga dapat dikatakan bahwa tes jangkar merupakan miniatur dari keseluruhan tes. Satu hal yang perlu disimak ialah, pendapat Kolen pada penelitiannya yaitu, keakuratan hasil penyetaraan harus melibatkan distribusi skor dari tes-tes lain, dengan ukuran sampel lebih kecil dan lebih besar; serta hal lain yang perlu dipertimbangkan adalah prosedur untuk memilih secara otomatis derajat penghalusan sehingga dapat membantu keefektifan dari metode tersebut (Kolen, 1991: 272). f. Keminiaturan Tes Jangkar Tes jangkar yang digunakan pada penelitian ini adalah butir-butir soal yang telah di- EBTANAS-kan atau di-UAN-kan, yang dianggap telah divalidasi oleh Pusat Penilaian Pendidikan Balitbang Depdiknas, dengan jumlah soal terbatas dan belum tentu merupakan miniatur dari keseluruhan tes. g. Penghalusan log-linier Hanson, Zeng dan Colton, yang menyatakan bahwa pengggunaan penghalusan log-linier harus mengevaluasi penggunaan dari beberapa model log-linier, dan mengambil model yang paling sederhana yang cocok dengan datanya (Hanson, Zeng dan Colton, 1994: 12). Hanson pada penelitiannya terhadap metode-metode penghalusan, menyimpulkan bahwa performans dari metode penghalusan polinominal yang relatif lebih buruk daripada metode penghalusan kernel, dapat sebagian disebabkan oleh strategi pemilihan model, di samping ukuran sampel yang kecil. h. Penghalusan kernel Khususnya terhadap pemilihan h pada penghalusan kernel, Kolen mengingatkan bahwa prosedur validasi silang perlu dilakukan untuk mengurangi subyektivitas pada pemilihan kriteria pemilihan derajat penghalusan h, yaitu dengan membandingkan momen dari distribusi sampel dan distribusi diperhalus (Kolen, 1991: 261) Pemilihan h yang meminimalkan nilai hErr menurut Hanson, adalah rumus pendekatan (aproksimasi) estimasi pada pemilihan h pada validasi silang dan akan bekerja baik untuk sampel sekitar 1000 (Hanson, 1990: 7-8). Cope dan Kolen, pada penelitiannya terhadap metode-metode untuk mengestimasi distribusi skor-skor tes, membuktikan bahwa, jika h pada peng-halusan kernel, bertambah besar maka distribusi skor yang diestimasi meskipun kurang melonjak-lonjak namun lebih menyimpang dari distribusi skor teramati (Cope dan Kolen, 1990: 7). Sebaliknya jika h kecil, menurut Ramsay, dengan prosedur validasi silang maka bias yang terjadi juga kecil (Ramsay, 1991: 618). i. Metode penyetaraan ekipersentil berantai Metode penyetaraan ekipersentil berantai menurut Livingston, terdiri dari dua penyetaraan ekipersentil terpisah, di mana setiap tes disetarakan dengan tes jangkar dalam sampel yang mengambil tes itu (Livingston, 1993: 24). 15Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes j. Metode penyetaraan ekipersentil estimasi frekuensi Menurut Harris dan Kolen, metode penyetaraan ekipersentil estimasi frekuensi, membutuhkan pertimbangan distribusi frekuensi gabungan dari tes X dan tes jangkar internal V (X,V) untuk peserta tes X dan distribusi frekuensi gabungan Y,V untuk peserta tes Y, sehingga diasumsikan distibusi dari tes X dan V sama untuk kedua peserta tes, demikian juga distibusi dari tes Y dan V sama untuk kedua peserta tes (Harris dan Kolen, 1990: 62). Jadi menurut Dorans, distribusi gabungan dari skor-skor tes tersebut, diestimasi untuk suatu populasi dengan suatu distribusi tertentu dari skor- skor tes jangkar (Dorans, 1990: 9). Oleh karena itu, menurut Harris dan Kolen, secara teoritikal metode penyetaraan ekipersentil estimasi frekuensi lebih baik dari metode penyetaraan ekipersentil berantai, walaupun metode penyetaraan ekipersentil estimasi frekuensi secara praktikal lebih sukar dimplementasikan, jika sampel berukuran besar atau mikrokomputer yang digunakan memiliki kapasitas penyimpanan terbatas (Harris dan Kolen, 1990: 70). Jadi dari pembahasan di atas, beberapa hal yang perlu kita catat adalah: • Penggunaan sampel berukuran 300 pada penelitian ini, diduga merupakan sampel yang dianggap memadai, hanya karena distribusi skor yang mungkin lebih halus, namun tidak termonitor keserupaan antara momen sentral dari distribusi skor yang diperhalus dan yang teramati (sedangkan perangkat lunak komputer yang mampu secara langsung memonitornya tidak ada). · Bahaya dari prapenghalusan ialah, hubungan penyetaraannya dapat menjadi lebih buruk daripada hubungan penyetaraan tanpa prapenghalusan. • Faktor-faktor yang berpengaruh pada hubungan penyetaraan dengan prapenghalusan ialah: ukuran sampel; pemilihan derajat penghalusan h; keserupaan antara momen sentral harus dapat dimonitor; dan validitas silang harus dilakukan dengan mengunakan berbegai bentuk distribusi dan ukuran sampel (sedangkan hal ini tidak dapat dilakukan dan hanya tergantung data primer saja). • Disamping faktor-faktor di atas, maka pada prapenghalusan, a. LL, harus digunakan beberapa model LL dan memilih model yang cocok dengan karakterisik data penelitian. Jadi, prapenghalusan tidak dapat hanya menggunakan model log-lin SPSS X saja. b. KN, meskipun pemilihan h sudah dilakukan dengan menggunakan rumus pendekatan Errh, namun rumus tersebut efektif jika ukuran sampel ± 1000. Hal ini dapat diatasi dengan memilih h yang terkecil pada validitas silang. • Secara teoritis, metode EEF lebih baik dari metode EB, karena EEF mempertimbangkan populasi sintetiknya; sementara EB hanya merupakan dua pernyataan terpisah, masing- masing tes jangkarnya. • Bagaimanapun, penghalusan dan penyetaraan sebagai proses statistikal, seringkali tidak dapat mempertahankan asumsi yang mendasarinya, sehingga solusinya dapat menimbulkan “missing” dan bukan “inference”, jika prasyarat pada model matematiknya tidak dipenuhi, misalnya ketepatan implementasi prapenghalusan. Dari semua paparan di atas, pembahasan yang terkait dengan hasil penelitian ini adalah sebagai berikut: 1. Hipotesis 1, hipotesis 2, hipotesis 4 dan hipotesis 5. Hipotesis 1: Akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan TP dan EB, lebih rendah, daripada dengan LL dan EB. Hipotesis 2: Akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan TP dan EB, lebih rendah, daripada yang menggunakan KN dan EB. Hipotesis 4: Akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan TP dan EEF, lebih rendah, daripada dengan LL dan EEF. Hipotesis 5: Akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan TP dan EEF, lebih rendah, daripada dengan KN dan EEF. Hasil penelitian menjukkan hipotesis 1, 2, 4 dan 5 gagal menolak H0. Dari pembahasan di atas, masuk akal jika prapenghalusan (LL dan EB) terkesan tidak efektif untuk menaikan akurasi penyetaraan skor tes. 2. Hipotesis 3: Akurasi penyetaraan skor tes untuk sampel berukuran 300, dengan LL dan EB, lebih tinggi, dengan KN dan EB. Hasil penelitian menjukkan hipotesis 3, gagal menolak H0. Seperti diuraikan pada paparan 16 Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes terdahulu, jika strategi pemilihan model LL tidak tepat karena hanya dilakukan dengan program log-lin SPSS X (sementara program- program untuk menganalisis berbagai model LL tidak ada), maka performans dari prapenghalusan LL berkemungkinan lebih buruk daripada performans prapenghalusan KN. Hal yang sama terjadi juga pada penggunaan prapenghalusan KN. Meskipun pemonitoran h dengan rumus pendekatan sudah dilakukan, namun tidak dapat memilih h terkecil dengan validitas silang. Diisadari bahwa hasil penelitian ini yang berhubungan dengan penghalusan dan penyetaraan sebagai proses statistikal, berkemungkinan menimbulkan salah interpretasi dan tidak dapat mempertahankan asumsi yang mendasarinya, karena tidak dipenuhinya prasyarat pada model matematik. 3. Hipotesis 6: Akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan LL dan EEF, lebih rendah daripada, dengan KN dan EEF. Hasil penelitian menjukkan hipotesis 6 gagal menolak H0. Sejalan dengan pembahasan 3 (hipotesis 3.), dengan menggunakan metode penyetaraan apapun, termasuk metode EEF seharusnya cenderung lebih buruk daripada yang menggunakan KN. Akibatnya tidak dapat mempertahankan asumsi yang mendasarinya. 4. Hipotesis 7: Akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan TP dan EB, lebih rendah, daripada dengan TP dan EEF. Hasil penelitian menjukkan hipotesis 7 menolak H0. Sesuai dengan paparan di atas, teoritikal metode EEF lebih baik daripada metode EB, walaupun metode EEF secara praktikal lebih sukar diimplementasikan, jika ukuran sampel yang digunakan besar atau mikrokomputer yang digunakan memiliki kapasitas penyimpanan terbatas 5. Hipotesis 8: Akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan LL dan EB, lebih tinggi, daripada dengan LL dan EEF. Hasil penelitian menjukkan hipotesis 8, gagal menolak H0. Jika penggunaan LL pada penelitian ini memadai dalam strategi pemilihan modelnya serta derajat penghalusannya, maka akurasi relatif penyetaraan skor tes, dengan LL dan EB, diduga secara statistikal dan signifikan, berkemungkinan lebih tinggi daripada dengan LL dan EEF. Namun karena penggunaan prapenghalusan baik LL maupun KN tidak memenuhui prasyarat maka akurasi relatif penyetaraannya cenderung sama. 6. Hipotesis 9: Akurasi relatif penyetaraan skor tes untuk sampel berukuran 300, dengan KN dan EB, lebih rendah, daripada dengan KN dan EEF. Hasil penelitian menjukkan hipotesis 9, gagal menolak H0. Jika derajat penghalusan KN dapat dimonitor sehingga dapat dipilih h yang kecil, dengan melakukan validitas silang (yang dalam penelitian ini tidak dapat dilakukan), maka akurasi penyetararaan dengan KN dan EB cenderung lebih rendah daripada akurasi relatif penyetaraan dengan KN dan EEF. Namun, hasil penelitian menunjukkan bahwa KN tidak memadai karena nilai derajat penghalusan h umumnya relatif besar, sehingga momen dari distribusi yang diestimasi akan lebih menyimpang dari momen distribusi sampel. Dari paparan di atas dapat dikemukakan bahwa penelitian ini memiliki keterbatasan: 1. Tidak tersedianya perangkat lunak untuk memilih data yang memiliki keserupaan antara momen sentral dari distribusi skor diperhalus dan distribusi skor teramati, mengakibatkan salah satu prasyarat ketika data itu disetarakan tidak dipenuhi. Akibatnya kesimpulan secara statistiskal, menimbulkan salah tanggap seolah-olah prapenghalusan tidak efektif, karena tidak menaikkan akurasi relatif penyetaraan skor tes, baik untuk metode penyetaraan ekipersentil berantai maupun metode penyetaraan ekipersentil estimasi frekuensi. 2. Pada penggunaan prapeng-halusan LL, dibutuhkan beberapa perangkat lunak model LL, agar dapat dipilih model LL yang sesuai dengan distribusi datanya, tidak dimiliki pada penelitian ini. 3. Pada penggunaan prapeng-halusan KN, pemonitoran derajat penghalusan tidak cukup hanya dilakukan dengan memonitor nilai Errh dan harus dilakukan validitas Keterbatasan Penelitian 17Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes silang, agar dapat dipilih derajat penghalusan yang relatif kecil sehingga menghasilkan momen-momen distribusi data diperhalus dan momen-momen distribusi data teramati, tidak terlampau menyimpang. Sementara ini, validitas silang tidak dapat dilakukan karena keterbatasan yang ada. 4. Pemilihan butir tes jangkar untuk pokok/ subpokok bahasan tertentu sangat terbatas, sehingga sulit menyusun tes jangkar yang merupakan miniatur dari tes-tes yang disetarakan. yang memiliki keserupaan baik konten maupun kedalaman meterinya dengan tes-tes yang disetarakan. Penelitian seharusnya dilakukan dalam semacam laboratorium penelitian dan pengembangan pengukuran, yang mampu menyediakan data simulasi (generated data) dengan berbagai ukuran dan bentuk distribusi. Dengan data simulasi itu, penelitian tidak hanya tergantung pada data primer, dan dapat dilakukan validitas silang. Kesimpulan Berdasarkan hasil uji hipotesis yang telah dikemukakan di atas, dapat dikemukakan beberapa kesimpulan sebagai berikut: Akurasi relatif penyetaraan skor tes untuk sampel sebesar 300, yang menggunakan TP dan EB, lebih rendah, daripada yang menggunakan TP dan EEF. Implikasi Dengan keterbatasan yang ada, sekolah atau pihak–pihak lain, dapat mengupayakan penyetaraan skor tes dengan: 1. Menyusun dua bentuk tes, berdasarkan kisi- kisi soal yang spesifikasinya sama. 2. Tes jangkar dapat diambil dari soal-soal yang telah divalidasi, yaitu soal-soal yang telah di- EBTANAS-kan atau di-UAN-kan, sesuai dengan pokok/subpokok bahasan yang ditetapkan. 3. Pengumpulan data skor tes yang disetarakan, dilakukan dengan desain tes jangkar nonekivalen. 4. Penyetaraan dilakukan tanpa prapenghalusan dengan metode penyetaraan ekipersentil estimasi frekuensi. Sejalan dengan hal-hal yang dikemukakan tersebut di atas maka: 1. Yayasan pendidikan yang memiliki beberapa sekolah filial, yang terdiri dari 10 kelas sejenjang (dengan asumsi setiap kelas terdiri dari 30 – 35 orang siswa); 2. sekolah-sekolah kecil yang terdiri dari hanya beberapa kelas sejenjang, dapat bekerja sama dengan sekolah atau sekolah-sekolah lain, sehingga diperoleh sampel sebanyak 300 orang siswa, serta 3. Rayon atau Suku Dinas, atau Dinas Pendidikan yang melaksanakan Ulangan Umum Bersama secara berkala, dengan sampel hingga ribuan, dapat melakukan penyetaraan skor tes dengan metode penyetaraan ekipersentil estimasi frekuensi, sehingga setelah beberapa tahun dapat memiliki kompilasi tes-tes yang setara, baik spesifikasi maupun standar kompetensinya yang dituntut, untuk beberapa pokok/ subpokok bahasan, bahkan untuk ulangan umum, maupun ujian sekolah. Kompilasi tes yang setara itu, dapat digunakan untuk memonitor ketuntasan belajar, memberikan ulangan susulan yang setara, atau mengatasi kebocoran tes, namun juga dapat me-metakan kecenderungan mutu siswa setiap tahun dengan membandingkan kinerja siswa yang menggunakan kompilasi tes tersebut. Saran 1. Perlu dikembangkan semacam suatu laboratorium pengukuran pendidikan, yang mampu mengembangkan dan menyediakan data simulasi, dengan berbagai ukuran sampel dan bentuk distribusi, serta dilengkapi dengan berbagai perangkat lunak model log- linier dan perangkat lunak untuk memonitor derajat penghalusan. 2. Perlu dilakukan penelitian lebih lanjut, dengan ukuran sampel dan bentuk distribusi berbeda-beda dan pengaruh keserupaan tes jangkar dengan tes secara keseluruhan terhadap akurasi penyetaraan. 3. Perangkat lunak untuk penyetaraan skor tes dan penghalusan, dapat di-peroleh dengan mudah dan murah, untuk penelitian lebih lanjut maupun untuk kebutuhan pihak yang membutuhkannya. 4. Upaya untuk melakukan penyetaraan skor tes, seyogianya sudah dimulai dilakukan oleh sekolah-sekolah, baik mandiri maupun Kesimpulan, Implikasi dan Saran 18 Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes secara bersama-sama. Dengan upaya itu, setelah beberapa tahun guru maupun sekolah, memiliki kompilasi tes yang setara. 5. Perlu dilakukan penelitian terhadap penyetaraan dengan bentuk soal esai terstruktur. Angoff, W. H. (1984). Scales, norms and equivalent scores. Princeton, N. J. Educational Testing Service Barnard, John J. (1996). In search for equity in educa- tional measurement: traditional versus modern equating methods. Makalah disampaikan pada ASEESA National Conference di HSRC Conference Centre. Pretoria, Afrika Selatan Braun, H. I. dan Holland P. W. Observed score test equating: A mathematical analysis of some ETS equating procedure. Test equating, ed. P.W. Holland dan D.B. Rubin, 9-49, New York: Academic, 1982 Cook, L. L. dan Peterson, N. S. Problem related to the use of conventional and item response theory equating methods in less than optimal circum- stances. Applied psychoogical measurement, Vol. 11, No. 3, 225– 244, 1987 Cope, R. T. dan Kolen, M. J. A study of methods for estimating distributions of test scores, laporan riset ACT. 90-5. Iowa City, I.A: American College Testing Program, 1990 Crocker, Linda dan Algina, James. (1986). Introduc- tion to classical and modern test theory. New York: Hold, Rinehart and Wiston Dorans, N. J. Equating methods and sampling designs: Applied measurement in Education, Vol. 3. No. 1, 3 –17, 1990 Grounlund, Norman E. (1985). Measurement and evaluation in teaching 5th edition. New York: Macmillan Publishing Company Hambleton, R. K. dan Swaminathan, H. (1985). Item response theory: Principles and applications. Boston: Kluwer Hanson, Bradley A. An investigation of methods for improving estimation of Test score distributions. Seri laporan penelitian ACT, No. 90-4, 1990 Hansons, Bradley. A., Zeng, Lingjia dan Colton, Dean. (1994). A comparison of presmoothing and postsmoothing methods in equipercentile equating. Laporan riset ACT. 94-4, Iowa City, I.A: American College Testing Program Harris Deborah J. dan Kolen, Michael J. A compari- son of two equipercentile equating methods for common item equating. Educational and psy- chological measurement, Vol. 50, 1990 Holmes, Susan E. Unidimensionality and vertical equating with the rasch model. Journal of educa- tional measurement, Vol. 19, No. 2 139-147, Summer 1982 James, Glen (ed.). (1976). Mathematics dictionary 4th edition. New York: Van Nostrand Reinhold Company Jarjoura David dan Kolen, Michael J. Standard er- rors of equipercentile equating for the common item nonequivalent populations design. Journal of Educational Statistics, Vol. 10, No. 2, 1985 Kennedy, J. J. dan Ping Tam, Hak. (1997). Log-lin- ear models, educational research, methodology and measurement. Ed. John P. Keeves, 571 – 580. Oxford: Elsevier Science Ltd. Kolen, M. J. Effectiveness of analytic smoothing in equipercentile equating. Journal of Educational Statistic, Vol. 9. No. 1, 25 – 44, 1984 Kolen, M. J.Tradisional equating methodology, educa- tional measurement: Issues and practice, Vol. 7 No. 4, 29 – 36, 1988 Kolen, M. J. Smoothing methods for estimating test score distributions. Journal of educational measure- ment, Vol. 28. No. 3, 257 – 282, 1991 Kolen, M. J. dan Brennan, R. L. (1995).Test equating methods and practice. New York: Springer- Verlag New York Inc. Kolen, M. J. dan Jarjoura, David. Analytic smooth- ing forequipercentile equating under the com- mon item nonequivalent population design. Psychometrika, Vol. 52, No. 1, 43-59, 1987 Livingston, Samuel A. Small-sample equating with log-linear smoothing. Journal of Educational Measurement, Vol. 30, No. 1, 23 – 39, 1993 Livingston, S. A. dan Feryok, N. J. Univariate versus bivariate smoothing in frequency estimation equating. Laporan riset No. 87 – 36. Princeton, N. J: Education Testing Service, 1987 Livingstone, S. A., Doran, N. J. dan Wright, N. K. What combination of sampling and equating methods work best?. Applied measurement in education, Vol. 3, 73 – 95, 1990 Lord, F.M. The standard error of equipercentile equat- ing. Journal of educational statistics, Vol. 7, 165 – 174, 1982 Murti, Bhisma. (1996). Penerapan metode statistik nonparametrik dalam ilmu- ilmu kesehatan. Jakarta: Penerbit Gramedia Pustaka Utama Naga, Dali S. (1992). Pengantar teori sekor. Jakarta: Gunadarma Naga, Dali S. Statistik terapan revisi tahun 2002 Daftar Pustaka 19Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006 Akurasi Relatif Penyetaraan Skor Tes (diktat kuliah di Universitas Tarumanagara dan Universitas Indonesia) Petersen, Nancy S., Kolen, M. J. dan Hoover, H. D. Scaling, norming and equating. Educational measurement 3rd Edition, ed. Robert L. Linn, 221–262. New York: Macmillian Publishing Company, 1989 Ramsay, J.O. Kernel smoothing approches to nonparamatric item characteristic curve estima- tion. Psychometrika, Vol.56, no. 4. 1991 Scheuneman, J. D. dan Bleistein, C. A. (1999). Item bias. Advanced in measurement in educational research and assessment, ed. Geoffrey N. Mas- ters dan John P. Keeves, 220 – 234. Amsterdam: Pergamon Setiadi, Hari. (1997). Small sample IRT item param- eter estimates. Disertasi Universitas Massa- chusetts Amherst, tidak dipublikasikan Skaggs, G. dan Lissitz, R. W. IRT test equating rel- evant issues and a review of recent research. Re- view of educational research, Vol. 56, No. 4, 495 – 529. 1986 Snedecor, George W. dan Cochran, William C. (1982). Statiscal methods 7th edition. Ames, Iowa: The Iowa State University Press Steel, Robert G. D. dan Torrie, James H. (1991). Prin- ciples and procedure of statistic (alih bahasa Bambang Sumantri). Jakarta: PT. Gramedia Suryadibrata, Sumadi. Penggunaan bentuk soal Pilihan ganda dalam ujian. Bulletin Pengujian dan Penilaian, Januari, 1995 Swediati, Nonny. Metode untuk pensetaraan (Equat- ing) skor tes secara klasik. Jakarta: Pusat Pengujian Balitbang Dikbud, Maret 1997 Wright, Benyamin D. A history of social science mea- surement, MESA Psychometric Laboratory