ANALISIS KINERJA ALGORITMA LEVENSHTEIN DISTANCE DALAM MENDETEKSI KEMIRIPAN DOKUMEN TEKS
Abstract
Akhir-akhir ini, plagiarisme pada dokumen teks merupakan salah satu permasalahan akademik yang semakin meningkat. Secara umum, tindak plagiarisme dilakukan dengan mengubah struktur kata dalam kalimat dan struktur kalimat dalam paragraf, serta melakukan penyisipan, penghapusan, atau penggantian kata. Pada penelitian ini, dibangun sebuah sistem yang mampu mendeteksi tingkat kemiripan antar dokumen teks menggunakan algoritma Levenshtein distance dengan menambahkan proses case folding, tokenizing, stopword removal, stemming, dan sorting. Proses pencocokan string pada algoritma ini dapat menghasilkan nilai distance yang menjadi penentu persentase bobot similarity. Analisa penggunaan stopword removal, stemming, dan sorting dilakukan untuk melihat pengaruhnya terhadap kinerja algoritma Levenshtein distance. Simulasi algoritma ini dilakukan terhadap dua data set dan satu data real. Pada data set 1 dilakukan pengubahan struktur kata dalam kalimat, pada data set 2 pengubahan struktur kalimat dalam paragraf, dan pada data real tidak dilakukan pengubahan apapun karena data real merupakan dokumen abstrak dari jurnal penelitian. Hasil simulasi menunjukkan bahwa penggunaan sorting sangat berpengaruh bagi algoritma Levenshtein distance. Hasil terbaik pada data set 1 ditunjukan pada proses yang menggunakan stopword removal, stemming, dan sorting sekaligus. Hasil terbaik pada data set 2 diperlihatkan pada proses yang menggunakan stopword dan stemming yang digabungkan dengan sorting. Hasil terbaik pada data real diperlihatkan pada proses stemming-sorting.
Full Text:
PDFRefbacks
- There are currently no refbacks.