Pengaruh Jumlah Kategori, Rentang Threshold dan Metode Estimasi terhadap Akurasi Skor Tes pada Beberapa Model Politomi

Adiyo R

Abstract


Tskor tes yang akurat merupakan salah satu tujuan utama yang ingin dicapai dari sebuah pengetesan. Namun umumnya masyarakat masih menggunakan cara klasik untuk memperoleh skor tes. Misalnya menjumlahkan hasil jawaban benar dari sebuah tes. Sebagaimana diketahui, terdapat beberapa asumsi pada tes klasik yang amat sulit dijumpai pada data skor tes. Maka itu pendekatan tes tidak lagi dilakukan dengan pendekatan klasik, tetapi dilakukan dengan pendekatan teori tes modern. Salah satu aspek yang dibahas dari teori tes modern ialah cara atau prosedur penskoran terhadap tes. Terdapat beberapa hal yang memengaruhi keakurasian skor tes pada pendekatan tes modern, yaitu dalam penelitian ini model politomi, jumlah kategori, rentang threshold dan metode estimasi. Model politomi (GRM dan GPCM), jumlah kategori (3 dan 4) dan rentang threshold (equal dan unequal) dipilih karena variabel tersebut berkaitan erat dengan data khususnya data kategorik. Data dalam penelitian ini berupa kategorik seperti skala Likert (0, 1, 2, 3...dst). Pada teori tes modern, penskoran dihitung berdasarkan susunan respon peserta tes terhadap butir item pada tes. Maka itu, diperlukan metode estimasi (MLR, WLSMV, EAP dan MLE). Penelitian ini menggunakan simulasi studi dengan kondisi 25 item, 500 responden dan 25 replikasi untuk setiap satu data. Interaksi variasi dari seluruh variabel independen sejumlah 2x2x2x4 menghasilkan 32 data. Variabel dependen dalam penelitian ini yaitu RMSE dan standard error. Analisis data menggunakan uji-F. Hasil penelitian menunjukkan bahwa pada kriteria RMSE, model data jumlah kategori 4 dan rentang threshold equal, serta dikalibrasi dengan model politomi GRM dan metode estimasi MLR dan WLSMV menghasilkan nilai RMSE terkecil dibandingkan dengan interaksi model data dan kalibrasi yang lain. sedangkan pada kriteria standard error, model data jumlah kategori 4 dan rentang equal, serta dikalibrasi dengan model GPCM dan metode estimasi MLE menghasilkan nilai standard error terkecil. Dari kedua kriteria tersebut, perbedaan nilai yang signifikan hanya pada kriteria RMSE. Untuk penelitian simulasi, kriteria RMSE lebih sensitif dalam menghasilkan keakurasian skor tes. Untuk aplikasi pada data empiris, model politomi GRM dan metode estimasi WLSMV atau MLR diduga lebih menghasilkan skor tes yang presisi.


Keywords


Jumlah kategori, rentang threshold, metode estimasi, model politomi, akurasi skor tes

References


Alagoz, C. (2000). Scoring tests with dichotomous and polytomous items. Unpublished Master of Arts Thesis, Georgia.

Allen, M. J., & Yen, W. M. (1979). Introduction to measurement t h e o r y . C a l i f o r n i a : Wadsworth, Inc.

Andrich, D. (1978). Application of a p s y c h o m e t r i c m o d e l t o ordered categories which are s c o r e d w i t h s u c c e s i v e i n t e g e r s . A p p l i e d Psychological Measurement, 2, 581-594.

Asparouhov, T & Muthen, B.O. (2010). Plausible values for latent variable using Mplus. M p l u s H a n d o u t a t www.statmodel.com/download/ Plausible.pdf

Bastari. 1998. Comparisons of IRT M o d e l s t h a t h a n d l e dichotomous and polytomous response data simultaneuosly. Makalah dipresentasikan pada seminat NCME di UMASS.

Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in t w o o r m o r e n o m i n a lcategories. Psychometrika, 37, 29-51.

Bock, R.D., & Mislevy, R.J. (1982). Adaptive EAP estimation of ability in a microcomputer e n v i r o n m e n t . A p p l i e d Psychological Measurement, 6, 431-444.

Comrey, L. A., & Montag, I. (1982). Comparison of factor analytic results with two-choice and seven-choice personality item f o r m a t s . A p p l i e d Psychological Measurement, 6, 3, 285 – 289.

Diao, Q., & Reckase, M. (2009). C o m p a r i s o n o f a b i l i t y estimation and item selection methods in multidimensional computerized adaptive testing. I n D . J W e i s s ( E d . ) , Proceedings of the 2009 G M A C C o n f e r e n c e o n C o m p u t e r i z e d A d a p t i v e Testing.

Dodd, B. G., & Koch, W. R. (1985). Item and scale informations functions for the partial credit

model. Paper presented at the a n n u a l m e e t i n g o f t h e A m e r i c a n E d u c a t i o n a l R e s e a r c h A s s o c i a t i o n , Chicago.

Dodd, B. G., & Koch, W. R. (1987). Effects of variations in item step values on item and test information in the partial c r e d i t m o d e l . A p p l i e d Psychological Measurement, 11, 371-384.

Drasgow, F. (1987). Study of measurement bias of two standardized psychological tests. Journal of Applied Psychology, 72, 19 – 29.

Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists. Mahwah, NJ: Erlbaum.

Fabiola, G. B., Iwin, L., Jennifer, L. M., & Zaira, V. V. (2012). The effect of the number of answer choices on the psychometric p r o p e r t i e s o f s t r e s s measurement in an instrument applied to children. Evaluar,

, 43-59.

Fung, C. B. (2002). Ability estimation u n d e r d i f f e r e n t i t e m parameterization and scoring models. Unpublished Doctoral Dissertation, University of North Texas.

Gulliksen, H. (1950). Theory of mental tests. New York: Wiley.

Hambleton, R. K., Swaminathan, H., & R o g e r s , J . ( 1 9 9 1 ) . F u n d a m e n t a l s o f i t e m response theory. California:Sage Publications, Inc.

Harwell, C. A., Stone, T. C., Hsu., & Kirisci, L. (1996). Monte Carlo studies in item response theory. Applied Psychological Measurement, 20, 101 – 125.

Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 2, 149 – 174.

Maydeu-Olivares, A., Drasgow, F., & M e a d , A . D . ( 1 9 9 4 ) .D i s t i n g u s h i n g a m o n g parametric item response models for polychotomous o r d e r e d d a t a . A p p l i e d Psychological Measurement, 18, 245-256.

Muraki,E. (1992). A generalized p a r t i a l c r e d i t m o d e l : A p p l i c a t i o n o f a n E M a l g o r i t h m . A p p l i e d Psychological Measurement, 16, 159-176.

Muthen, B.O,. & Muthen, L. (1998 – 2010). Mplus version 6.1 student edition (Computer

Software). Los Angeles, CA:Muthen & Muthen.

Muthén , B.O, du Toit, S., & Spisic,, D. (1997). Robust infoerince using weighted least squares and quadratic estimating equations in latent variable modeling with categorical and c o n t i n u o u s o u t c o m e s . Unpublished manuscript.

Muthen, B.O., & Muthen. L. (2002). How to use a monte carlo study to decide on sample size and determine power. UCLA, Graduate School of Education & Information Studies.

Rodriguez, M. C. (2005). Three options are optimal for multiple-choice items: A meta analysis of 80 years of r e s e a r c h . E d u c a t i o n a l Measurement: Issues and Practices, 24, 2, 3-13. Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometrika Monograph, 6, 255-270.

Seong, T.J. (1990). Sensitivity of marginal maximum likelihood estimation of item and abilty p a r a m e t e r s t o t h e characteristics of the prior ability distributions. Applied Psychological Measurement, 14, 299-311.

Symonds, P. M. (1924). On the loss of reliability in ratings due to coarseness of the scale. Journal of Experimental Psychology, 7, 456 – 461.

Thissen, D. M. (1976). Information in wrong responses to Raven Progressive Matrices. Journal of Educational Measurement, 13, 201 – 214.

van der Linden, W.J., & Pashley, P.J. (2010). Item selction and ability estimation adaptive testing. In W.J van der Linden& A.W. Glas (Eds.). Elements of adaptive testing (hal. 3-30). New York: Springer.

Wang, T. (2002). Relative precision of a b i l i t y e s t i m a t i o n i n p o l y t o m o u s C A T : A c o m p a r i s o n u n d e r t h e Generalized Partial Credit Model and Graded Response Model. Paper presented at the annual meeting of AERA Associations, New Orleans.


Full Text: PDF

DOI: 10.15408/jp3i.v3i3.10730

Refbacks

  • There are currently no refbacks.