Spelling Corrector Bahasa Indonesia dengan Kombinasi Metode Peter Norvig dan N-Gram

Maya Salinka Simanjuntak, Herry Sujaini, Novi Safriadi

Abstract


Abstrak - Kesalahan pengetikan dalam suatu dokumen merupakan human error yang sulit dihindari, akibatnya pesan yang ingin disampaikan tidak maksimal. Menggunakan fitur Spelling Corrector menjadi salah satu cara untuk mengecek kesalahan-kesalahan pengetikan. Metode-metode yang digunakan  mampu memberikan saran-saran kata yang benar, tapi tidak mampu memperbaiki kata yang salah secara langsung. Pengguna harus memilih satu kata yang diinginkan dari saran-saran kata yang dihasilkan oleh fitur. Dibutuhkan fitur Spelling Corrector yang mampu memberikan hanya satu saran kata dan langsung memperbaikinya. Melihat cara berbagai macam metode memberikan saran kata, kombinasi metode Peter Norvig dan N-Gram mampu menghasilkan satu saran kata. Kedua metode mencari saran kata menggunakan nilai probabilitas kata yang paling sering muncul di dalam kamus. Perbedaan dari kedua metode tersebut adalah Peter Norvig menggunakan algoritma yang mengkombinasikan proses menghapus, menambah, memisahkan, mengganti, dan memindahkan huruf pada kata yang salah. Sedangkan, N-Gram menggunakan algoritma yang memperhatikan kata-kata sebelum dan sesudahnya berdasarkan kalimat di dalam kamus. Kamus yang digunakan adalah dokumen hasil training corpus yang disebut ARPA file. Kombinasi metode ini diuji dalam 9 skenario kesalahan penulisan dengan 160 kalimat yang masing-masing memiliki satu kata yang salah. Hasil pengujian menyatakan bahwa kombinasi kedua metode memberikan tingkat ketepatan 65,926% dan tingkat keberhasilan 78,07% untuk menghasilkan satu saran kata yang benar dari satu kata yang salah dalam sebuah kalimat. Kombinasi kedua metode ini dapat digunakan dalam memperbaiki kesalahan pengetikan, walaupun tidak dapat memperbaiki kata dengan tingkat kesalahan dua huruf atau lebih. Hal ini dikarenakan, Peter Norvig tidak mampu memperbaiki kata dengan tingkat kesalahan dua huruf dan membutuhkan korpus yang baik.

Kata kunci: Kombinasi, Spelling Corrector, Peter Norvig, N-Gram, ARPA file.

Full Text:

PDF

References


Mishra, Ritika dan Navjot Kaur. 2013. A Survey of Spelling Error Detection and Correction Techniques. International Journal of Computer Trends and Technology Vol. 4, Issue 3.

Ratnasari, C. Indah. 2017. A Non-Word Error Spell Checker for Patient Complaints in Bahasa Indonesia. International Journal of Information Technology, Computer Science and Open Source Vol . 1, No. 1.

Fahma, A. Indana. 2018. Identifikasi Kesalahan Penulisan Kata (Typographical Error) pada Dokumen Berbahasa Indonesia Menggunakan Metode N-Gram dan Levensthein Distance. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Vol. 2, No. 1.

Fachrurrozi, Muhammad. 2015. Perbaikan Ejaan Kata pada Dokumen Bahasa Indonesia dengan Metode Cosine Similarity. Jurnal. Palembang: Universitas Sriwijaya.

Mutammimah. 2017. Analisis Perbandingan Metode Spelling Corrector Peter Norvig dan Spelling Checker BK-Trees pada Kata Berbahasa Indonesia. Jurnal Edukasi dan Penelitian Informatika (JEPIN) Vol 5, No. 1.

Mandira, Soni. 2016. Perbaikan Probabilitas Lexical Model untuk Meningkatkan Akurasi Mesin Penerjemah Statistik. Jurnal Edukasi dan Penelitian Informatika (JEPIN) Vol 2, No. 1.

Hadi, Ibnu. 2014. Uji Akurasi Mesin Penerjemah Statistik Bahasa Indonesia ke Bahasa Melayu Sambas dan Mesin Penerjemahan Statistik Bahasa Melayu Sambas ke Bahasa Indonesia. Jurnal Sistem dan Teknologi Informasi (JUSTIN) Vol 2, No. 3.

Suprapto, Kadarisman Tejo Yuwono, Totok Sukardiyono, dan Adi Dewanto. 2008. Buku Bahasa Pemrograman Untuk SMK. Departemen Pendidikan Nasional : Direktorat Pembinaan Sekolah Menengah Kejuruan

Pendit, P. L. 2008. Perpustakaan Digital dari A sampai Z. Jakarta : Cita Karyakarsa Mandiri

Norvig, Peter. 2007. How to Write a Spelling Corrector. [Online] Available: http://www.norvig.com/spell-correct.html

Jurafsky, D. Saul. dan James H. Martin. 1999. Speech and Language Processing. USA : Library of Congress Cataloging in Publication Data

Wardhana, W. Satya. 2011. Pengoreksian Ejaan Kata Menggunakan Metode N-Gram (Studi Kasus: Dokumen Teks Berbahasa Indonesia). Jurnal. Bandung: Universitas Telkom

Hamzah, Amir. 2010. Deteksi Bahasa untuk Dokumen Teks Berbahasa Indonesia. Yogyakarta: Seminar Nasional Informatika (semnasIF) 2010.




DOI: http://dx.doi.org/10.26418/jp.v4i1.24075

Refbacks