Pengaruh Kuantitas Korpus Monolingual Terhadap Akurasi Mesin Penerjemah Statistik

Mirda Wahyuni, Herry Sujaini, Hafiz Muhardi

Abstract


Untuk mencapai hasil terjemahan yang optimal mesin penerjemah statistik membutuhkan korpus paralel dalam jumlah yang besar dimana korpus tersebut berisi salinan teks bahasa sumber dan bahasa target yang sejajar. Ketersediaan korpus paralel menjadi salah satu permasalahan karena sumber yang menyediakan dokumen korpus paralel sulit ditemukan. Tidak seperti data paralel, korpus monolingual yang berisi teks hanya dalam satu bahasa dapat mempermudah pembuatan korpus (terutama bahasa target), karena dokumen teks monolingual tersedia secara luas sehingga tidak diperlukan usaha lebih untuk menerjemahkan teks korpus bilingual. Tujuan yang ingin dicapai dalam penelitian ini adalah untuk mengetahui seberapa besar pengaruh kuantitas korpus monolingual terhadap nilai akurasi hasil terjemahan pada mesin penerjemah statistik Bahasa Inggris ke Bahasa Indonesia. Pengujian otomatis menggunakan BLEU dilakukan secara bertahap terhadap 2000 kalimat uji dengan menambahkan korpus monolingual bahasa target dengan jumlah yang sama pada setiap mesinnya yaitu sebanyak 6000 hingga mencapai jumlah 60000 kalimat dan didapatkan peningkatan akurasi sebesar 10,13%. Pengujian manual dilakukan oleh seorang ahli Bahasa Inggris dengan korpus uji sebanyak 100 kalimat dengan peningkatan akurasi sebesar 10,07%. Penggunaan korpus monolingual dapat mempermudah penyediaan sumber data pada mesin penerjemah statistik namun karena peningkatan akurasinya yang terbilang cukup kecil maka dibutuhkan jumlah korpus yang sangat besar sehingga penambahan korpus monolingual ini kurang efisien untuk meningkatkan akurasi terjemahan di atas 30%.

Keywords


mesin penerjemah statistik, BLEU, korpus paralel, korpus monolingual

Full Text:

PDF

References


Apriani, Tri., Pengaruh Kuantitas Korpus Terhadap Akurasi Mesin Penerjemah Statistik Bahasa Bugis Wajo ke Bahasa Indonesia, Jurnal Sistem dan Teknologi Informasi (JustIN), Vol. 1, No. 1, hal. 168-173, 2016.

Sujaini, Herry., dan Negara, Arif Bijaksana Putra. Analysis of Extended Word Similarity Clustering based Algorithm on Cognate Language. Gujarat: ESRSA Publications Pvt. Ltd. 2015.

Miangah, Tayebeh Mosavi., dan Khalafi, Ali Delavar. Word Sense Disambiguation Using Target Language Corpus in a Machine Translation System. Iran: Literary and Linguistic Computing, Vol.2, No.2, hal 237-249. 2005.

Hasbiansyah, Muhammad. 2016. Tuning For Quality Untuk Uji Akurasi Mesin Penerjemah Statistik (MPS) Bahasa Indonesia - Bahasa Dayak Kanayatn. Pontianak, Jurnal Sistem dan Teknologi Informasi (JustIN), Vol. 4, No. 1, hal. 209-213, 2016.

Tanuwijaya, Hansel. Penerjemahan Inggris-Indonesia Menggunakan Mesin Penerjemah Statistik Dengan Word Reordering dan Phrase Reordering. Jakarta, Jurnal ilmu Komputer dan Informasi Vol 2 No 1, hal. 17-24. 2009.

Manning, Christopher D. dan Schutze, Hinrich. Foundations of Statistical Natural Language Processing. London: The MIT Press Cambridge Massachusetts. 2000.

McEnery, Tony dan Wislon, Andrew. Corpus Linguistics. Edinburgh: Edinburgh University Press. 1996.

Sujaini, Herry. dan Arif B.P.N. Strategi Memperbaiki Kualitas Korpus untuk Meningkatkan Kualitas Mesin Penerjemah Statistik. Jakarta, Seminar Nasional Teknologi Informasi XI. 2015.

Yıldız, E., Tantuğ, A.C., & Diri, B., The Effect of Parallel Corpus Quality vs Size in English-to-Turkish SMT. Sixth International Conference on Web services & Semantic Technology (WeST 2014), 2014, hal. 21-30.

Maheshwar, S. & Sharma, H., Improvements in Corpus Quality for Statistical Machine Translation. IJSRD - International Journal for Scientific Research & Development, Vol. 2, No, 5, hal. 23210613, 2014.

Xu, Hainan and Koehn, Philipp (2017): Zipporah: a Fast and Scalable Data Cleaning System for Noisy Web-Crawled Parallel Corpora. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.

Hadi, Ibnu. Uji Akurasi Mesin Penerjemah Statistik Bahasa Indonesia ke Bahasa Melayu Sambas dan Bahasa Melayu Sambas ke Bahasa Indonesia. Pontianak, Jurnal Sistem dan Teknologi Informasi (JustIN), Vol. 3, No. 1, hal. 127-135. 2014.

Papineni, Kishore; Ruokos, Salim; Ward, Todd; dan Zhu, Wei-Jing. BLEU: a Methode For Automatic Evaluation of Machine Translation. USA: IBM TJ Watson Research Center. 2002.

Y. Jarob, H. Sujaini dan N. Safriadi. Uji Akurasi Penerjemahan Bahasa Indonesia – Dayak Taman dengan Penandaan Kata Dasar dan Imbuhan. Jurnal Edukasi dan Penelitian Informatika (JEPIN), Vol. 2 No. 2, 2016.

Devi. Sapna, dan Kalia, Arvind. 2015. Study of Data Cleaning & Comparison of Data Cleaning Tools. IJCSMC, Vol. 4, Issue. 3, March 2015.

Koehn, Philipp. MOSES Statistical Machine Translation User Manual dan Code Guide. The University of Edinburgh. 2016.

Triawati, Candra. Metode Pembobotan Statistical Concept Based untuk Klastering dan Kategorisasi Dokumen Berbahasa Indonesia. Jakarta: IT TELKOM. 2009.




DOI: http://dx.doi.org/10.26418/justin.v7i1.27241

Refbacks

  • There are currently no refbacks.


Copyright (c) 2019 JUSTIN (Jurnal Sistem dan Teknologi Informasi)

ara komputer
View My Stats

Creative Commons License
All article in Justin is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License