ANALISIS KINERJA ALGORITMA LEVENSHTEIN DISTANCE DALAM MENDETEKSI KEMIRIPAN DOKUMEN TEKS

B. P. Pratama, S. A. Pamungkas

Abstract


Akhir-akhir ini, plagiarisme  pada dokumen teks merupakan salah satu permasalahan akademik yang semakin meningkat. Secara umum, tindak plagiarisme dilakukan dengan mengubah struktur kata dalam kalimat dan struktur kalimat dalam paragraf, serta melakukan penyisipan, penghapusan, atau penggantian kata. Pada penelitian ini, dibangun sebuah sistem yang mampu mendeteksi tingkat kemiripan antar dokumen teks menggunakan algoritma Levenshtein distance  dengan menambahkan proses  case folding,  tokenizing, stopword removal,  stemming, dan  sorting. Proses pencocokan  string  pada algoritma ini dapat menghasilkan nilai  distance yang menjadi penentu persentase bobot  similarity. Analisa penggunaan  stopword removal,  stemming, dan  sorting dilakukan untuk melihat pengaruhnya terhadap kinerja algoritma  Levenshtein distance. Simulasi algoritma ini dilakukan terhadap dua data set dan satu data real. Pada data set 1 dilakukan pengubahan struktur kata dalam kalimat, pada data set 2 pengubahan struktur kalimat dalam paragraf,  dan pada data real tidak dilakukan pengubahan apapun karena data real merupakan dokumen abstrak dari jurnal penelitian. Hasil simulasi menunjukkan bahwa penggunaan  sorting  sangat berpengaruh bagi algoritma  Levenshtein distance. Hasil terbaik pada data set 1 ditunjukan pada proses yang menggunakan  stopword removal,  stemming, dan sorting  sekaligus. Hasil terbaik pada data set 2 diperlihatkan pada proses yang menggunakan  stopword  dan  stemming  yang digabungkan dengan  sorting. Hasil terbaik pada data real diperlihatkan pada proses stemming-sorting.


Full Text:

PDF
Abstract - 0 PDF - 0

Refbacks

  • There are currently no refbacks.