Perbandingan Nilai Akurasi Algoritma Smoothing pada Mesin Penerjemah Statistik Bahasa Indonesia ke Bahasa Melayu Sambas dengan Language Model Toolkit IRSTLM

Ronja Ronja, Herry Sujaini, Rudy Dwi Nyoto

Abstract


Komunikasi merupakan bagian penting dalam berkehidupan sosial. Ketidakmampuan dalam berkomunikasi dapat menyebabkan tidak tersampaikannya suatu informasi serta terjadinya kesalahpahaman. Indonesia yang memiliki beragam suku dan budaya tidak dapat dipungkiri akan melahirkan interaksi antar suku yang mempunyai keunikan bahasa masing-masing. Mesin penerjemah statistik hadir sebagai salah satu solusi. Mesin penerjemah statistik pada penelitian ini menggunakan language model toolkit IRSTLM dengan bahasa Indonesia dan bahasa Melayu Sambas dengan data sebanyak 2700 baris kalimat korpus paralel. Algoritma smoothing merupakan komponen yang dapat meningkatkan akurasi hasil terjemahan pada mesin penerjemah. Perlunya dilakukan penelitian terhadap algoritma smoothing untuk mengetahui algortima smoothing dengan nilai BLEU score dan hasil terjemahan terbaik. Proses pengujian dilakukan dengan membandingkan nilai BLEU score dari masing-masing algoritma smoothing menggunakan metode penambahan secara konsisten pada setiap mesin menggunakan 200 korpus sebanyak sepuluh kali pengujian. Algoritma smoothing yang digunakan witten-bell, back-off, kneser-ney dan modified kneser-ney dan hasil yang didapat untuk algoritma smoothing terbaik yaitu modified kneser-ney dengan nilai 68,04% menggunakan 3gram dan 67,8% menggunakan 5gram. Pada pengujian manual dilakukan terlebih dahulu mencari nilai BLEU score terbaik menggunakan metode k-fold cross validation dengan algoritma smoothing modified kneser-ney hasil yang didapat yaitu dengan nilai BLEU score tertinggi sebesar 84,18%. Data yang digunakan pada mesin tersebut dijadikan bahan untuk pengujian manual oleh dua orang ahli bahasa dengan nilai akurasi 94,87% dan 96,65%.


Keywords


Bahasa Indonesia; Bahasa Melayu Sambas; Mesin Penerjemah Statistik; IRSTLM; Algoritma Smoothing

Full Text:

PDF

References


F. Lafamane, “Fenomena Penggunaan Bahasa Daerah di Kalangan Remaja. PBB ( Unesco : United Nations Education , Social and Culture Organization ),” 2020.

I. Hadi, “Uji Akurasi Mesin Penerjemah Statistik (MPS) Bahasa Indonesia ke Bahasa Melayu Sambas dan Mesin Penerjemah Statistik (MPS) Bahasa Melayu Sambas ke Bahasa Indonesia,” J. Sist. dan Teknol. Inf., vol. 2, no. 3, 2014.

A. Godase and S. Govilkar, “MACHINE TRANSLATION DEVELOPMENT FOR INDIAN LANGUAGES AND ITS APPROACHES,” vol. 4, no. 2, pp. 55–74, 2015.

Y. Solomon, M. Meshesha, and W. Endale, “Optimal Alignment For Bi-Directional Afaan Oromo-English Statistical Machine Translation,” vol. 3, no. 7, pp. 73–77, 2019.

A. Hannan, “Assamese-English Bilingual Machine Translation,” Int. J. Nat. Lang. Comput., vol. 3, no. 3, 2014, doi: 10.5121/ijnlc.2014.3307.

W. Zhang, “Comparing the Effect of Smoothing and N-gram Order : Finding the Best Way to Combine the Smoothing and Order of N-gram,” Master Sci. Comput. Eng., 2015.

P. Koehn, Statistical Machine Translation. New York: Cambridge University Press, 2010.

S. F. Chen and J. Goodman, “An Empirical Study of Smoothing Techniques for Language Modeling An Empirical Study of Smoothing Techniques for Language Modeling,” Comput. Sci. Gr. Harvard Univ. Rep. TR-10-98, 1998.

M. Federico, N. Bertoldi, M. Cettolo, F. R. Scientifica, V. Sommarive, and P. Tn, “IRSTLM : an Open Source Toolkit for Handling Large Scale Language Models,” pp. 1618–1621, 2008.

A. Paul and B. S. Purkayastha, English to Nepali Statistical Machine Translation System. Springer Singapore, 2018.

R. Kneser and H. Ney, “Improved backing-off for M-gram language modeling,” In ICASSP-95, vol. 1, pp. 181–184, 1995.

H. Sujaini, “Peningkatan Akurasi Penerjemah Bahasa Daerah dengan Optimasi Korpus Paralel,” J. Nas. Tek. Elektro dan Teknol. Inf., vol. 7, no. 1, 2018.

L. Marlinda and H. Rianto, “Pembelajaran Bahasa Indonesia Berbasis Sain,” Manaj. Inform. Jakarta, pp. 181–190, 2013.

G. Lample, A. Conneau, L. Denoyer, and M. Ranzato, “Unsupervised machine translation using monolingual corpora only,” arXiv, no. 2011, pp. 1–14, 2017.

H. Sujaini, “Meningkatkan Peran Model Bahasa dalam Mesin Penerjemah Statistik (Studi Kasus Bahasa Indonesia-Dayak Kanayatn),” Khazanah Inform. J. Ilmu Komput. dan Inform., vol. 3, no. 2, p. 51, 2017, doi: 10.23917/khif.v3i2.4398.

M. Federico, “IRSTLM Toolkit,” FBK-irst, 2010.

D. Jurafsky and J. H. Martin, “Speech and Language Processing,” Zeitschrift fur Sprachwiss., vol. 21, no. 1, pp. 134–135, 2002, doi: 10.1515/zfsw.2002.21.1.134.

S. Islam and B. S. Purkayastha, “English to Bodo Phrase-Based Statistical Machine Translation,” Adv. Comput. Commun. Technol. Springer, Singapore, pp. 207–217, 2018.

H. F. Tapikap, B. S. Djahi, T. Widiastuti, J. I. Komputer, U. N. Cendana, and K. C. Validation, “Hanna Florenci Tapikap 1 , Bertha S. Djahi 2 , Tiwuk Widiastuti 3 Jurusan Ilmu Komputer, Fakultas Sains dan Teknik, Universitas Nusa Cendana,” vol. 7, no. 1, pp. 21–26, 2019.




DOI: http://dx.doi.org/10.26418/jp.v6i3.42471

Refbacks

  • There are currently no refbacks.