Evaluating ChatGPT’s Accuracy Across Cognitive Levels in Academic Assessments

Astutiati Nurhasanah, Fadhilah Suralaga, Ida Rosyidah, Zahrotun Nihayah, Riri Fitri Sari, Ade Solihat, Nabila Ernada



This study evaluates the accuracy of ChatGPT’s free version in answering academic questions based on Bloom’s Taxonomy cognitive levels (C1–C6) and disciplines (physics, social sciences, and religious studies) at two universities in Jakarta. A mixed-method approach was used, combining statistical and content analyses. Thirty-five lecturers from UIN Jakarta and the University of Indonesia submitted exam questions in Bahasa Indonesia to ChatGPT, and the responses were scored on a 0–100 accuracy scale. Results show that ChatGPT performs well on multiple-choice questions (C1–C3) in physics but struggles with higher-order tasks (C5–C6) requiring synthesis, evaluation, and creativity. In social sciences, accuracy was consistent, particularly in theoretical questions, though ChatGPT faced challenges with data-driven analysis and practical application. Religious studies exhibited high accuracy across all cognitive levels due to the structured and doctrinal nature of the material.Statistical analysis revealed significant differences in accuracy between lower and higher cognitive levels in physics (p = 0.005) and religious studies (p = 0.011), but no significant difference in social sciences (p = 0.137). ANOVA (p = 0.464) showed no significant differences across disciplines. This study highlights ChatGPT’s effectiveness in answering lower to intermediate-level questions (C1–C4) but identifies limitations with higher-level tasks (C5–C6). These findings encourage educators to design questions that assess deeper cognitive skills while utilizing AI’s strengths in supporting learning and knowledge acquisition.


Studi ini mengevaluasi akurasi versi gratis ChatGPT dalam menjawab pertanyaan akademik berdasarkan tingkat kognitif Taksonomi Bloom (C1–C6) dan disiplin ilmu (fisika, ilmu sosial, dan studi keagamaan) di dua universitas di Jakarta. Pendekatan mixed-method digunakan, menggabungkan analisis statistik dan konten. Sebanyak 35 dosen dari UIN Jakarta dan Universitas Indonesia mengajukan soal ujian dalam Bahasa Indonesia ke ChatGPT, dan jawaban yang dihasilkan dinilai pada skala akurasi 0–100. Hasil penelitian menunjukkan bahwa ChatGPT unggul pada soal pilihan ganda (C1–C3) di bidang fisika, tetapi kesulitan pada tugas tingkat tinggi (C5–C6) yang membutuhkan sintesis, evaluasi, dan kreativitas. Pada ilmu sosial, akurasi cenderung konsisten, terutama pada soal teoretis, meskipun ChatGPT menghadapi tantangan dalam analisis berbasis data dan penerapan praktis. Pada studi agama, ChatGPT menunjukkan akurasi tinggi di semua tingkat kognitif karena struktur materi dan interpretasi doktrin yang jelas. Analisis statistik menunjukkan perbedaan signifikan pada akurasi antara tingkat kognitif rendah dan tinggi di fisika (p = 0,005) dan studi agama (p = 0,011), tetapi tidak pada ilmu sosial (p = 0,137). Hasil ANOVA (p = 0,464) menunjukkan tidak ada perbedaan signifikan antar disiplin ilmu secara keseluruhan. Studi ini menyoroti efektivitas ChatGPT dalam menjawab soal tingkat rendah hingga menengah (C1–C4) tetapi mengidentifikasi keterbatasan pada tugas tingkat tinggi (C5–C6). Temuan ini mendorong pendidik untuk merancang soal yang mengukur keterampilan kognitif mendalam sambil memanfaatkan kekuatan AI dalam mendukung pembelajaran dan akuisisi pengetahuan.

How to Cite: Nurhasanah, A., Suralaga, F., Rosyidah, I., Nihayah, Z., Sari, R. F., Solihat, A., & Ernada, N. (2024). Evaluating ChatGPT’s Accuracy Across Cognitive Levels in Academic Assessments. TARBIYA: Journal of Education in Muslim Society, 11(2), 211-224. https://doi.org/10.15408/tjems.v11i2.44701


ChatGPT; Bloom's Taxonomy; AI in education; cognitive skills; academic assessment; ChatGPT; Taksonomi Bloom; AI dalam pendidikan; keterampilan kognitif; penilaian akademik

