Pengaruh Metode Dictionary Lookup pada Cleaning Korpus Terhadap Akurasi Mesin Penerjemah Statistik Indonesia–Melayu Pontianak

Muhammad Dwi Etsa, Herry Sujaini, Novi Safriadi

Abstract


Bahasa Melayu Pontianak merupakan dialek bahasa Melayu yang dituturkan oleh masyarakat Kota Pontianak dan sekitarnya, meskipun masih jauh dari kepunahan namun perlu dilestarikan sebagai tindakan pencegahan agar tidak punah, salah satu upaya pelestarian bahasa daerah yaitu dengan pembuat mesin penerjemah. Mesin Penerjemah Statistik (MPS) adalah sebuah pendekatan mesin penerjemah dengan hasil terjemahan dihasilkan atas dasar model statistik, namun masih terdapat kelemahan yaitu rendahnya tingkat akurasi terjemahan. Proses cleaning adalah proses pencarian dan perbaikan (penghapusan) kata atau kalimat yang salah ataupun tidak sesuai dalam rangka meningkatkan tingkat akurasi terjemahan, salah satu metode yang dapat digunakan pada proses cleaning adalah metode dictionary lookup. Tujuan dari penelitian ini adalah mengetahui pengaruh penerapan metode dictionary lookup pada proses cleaning korpus terhadap akurasi mesin penerjemah statistik bahasa Indonesia – bahasa Melayu Pontianak. Penelitian menggunakan korpus paralel sebanyak 9157 kalimat. Pengujian dilakukan dengan membandingkan nilai akurasi hasil terjemahan sebelum dan setelah cleaning dengan metode dictionary lookup. Pengujian dilakukan dengan pengujian otomatis menggunakan Bilingual Evaluation Understudy (BLEU). Dari hasil penelitian, penerapan metode dictionary lookup pada proses cleaning dapat mempengaruhi akurasi MPS, ini terlihat dari terjadinya penurunan sebesar 1,5% pada korpus manual dan penurunan sebesar 6,94% dengan korpus orisinal sementara itu terjadi peningkatan sebesar 2,58% pada korpus clean dic. Berdasarkan hal tersebut penerapan metode dictionary lookup pada proses cleaning dapat menurunkan nilai akurasi hasil terjemahan.

Full Text:

PDF

References


Badan Pusat Statistik 2011. Kewarganegaraan, Suku Bangsa, Agama, dan Bahasa Sehari-hari Penduduk Indonesia Hasil Sensus Penduduk 2010.

Moseley, Christopher. 2010. Atlas of the World's Languages in Danger of Disappearing, UNESCO Publishing Vol 3.

Tanuwijaya, Hansel. 2009. Penerjemahan Inggris-Indonesia Menggunakan Mesin Penerjemah Statistik Dengan Word Reordering dan Phrase Reordering. Jakarta, Jurnal ilmu Komputer dan Informasi Vol 2 No 1.

Apriani, T., Pengaruh Kuantitas Korpus Terhadap Akurasi Mesin Penerjemah Statistik Bahasa Bugis Wajo ke Bahasa Indonesia, Jurnal Sistem dan Teknologi Informasi (JustIN), Vol. 1, No. 1, hal. 1-6, 2016.

Yohanes, B.W., Robert, T., dan Nugroho, S., Sistem Penerjemah Bahasa Jawa-Aksara Jawa Berbasis Finite State Automata, Jurnal Nasional Teknik Elektro dan Teknologi Informasi (JNTETI), Vol. 6, No. 2, hal. 127-132, Mei 2017.

Nugroho, R.A., Adji, T.B. & Hantono, B.S., Penerjemahan Bahasa Indonesia dan Bahasa Jawa Menggunakan Metode Statistik Berbasis Frasa, Seminar Nasional Teknologi Informasi dan Komunikasi 2015 (SENTIKA 2015), 2015, hal. 51.

Mulyana. 2018. Algoritma Pembagian Frasa dalam Kalimat Untuk Meningkatkan Akurasi Mesin Penerjemah Statistik Bahasa Indonesia – Bahasa Bugis Wajok. Jurnal Sistem dan Teknologi Informasi (JustIN), Vol. 6, No. 2, hal. 39-48, 2018.

Wibowo, Wasis. 2016. Algoritma Pembagian Frasa dalam Kalimat Untuk Meningkatkan Akurasi Mesin Penerjemah Statistik Bahasa Indonesia – Bahasa Jawa Kromo. Fakultas Teknik Prodi Teknik Informatika Universitas Tanjungpura: Pontianak.

Indrayana, Danny. 2016. Meningkatkan Akurasi Pada Mesin Penerjemah Bahasa Indonesia Ke Bahasa Melayu Pontianak Dengan Part Of Speech. Pontianak, JEPIN Vol 1 No 1 2016.

Sujaini, H., Mesin Penerjemah Situs Berita Online Bahasa Indonesia ke Bahasa Melayu Pontianak, Jurnal Teknik Elektro (ELKHA), Vol. 6, No. 2, hal. 38-44, Oktober 2014.

Sujaini, Herry. dan Arif B.P.N. 2015. Strategi Memperbaiki Kualitas Korpus untuk Meningkatkan Kualitas Mesin Penerjemah Statistik. Jakarta, Seminar Nasional Teknologi Informasi XI.

Yıldız, E., Tantuğ, A.C., & Diri, B., The Effect of Parallel Corpus Quality vs Size in English-to-Turkish SMT, Sixth International Conference on Web services & Semantic Technology (WeST 2014), 2014, hal. 21-30.

Maheshwar, S. & Sharma, H., Improvements in Corpus Quality for Statistical Machine Translation, IJSRD - International Journal for Scientific Research & Development, Vol. 2, No, 5, hal. 2321-0613, 2014.

Xu, Hainan and Koehn, Philipp (2017): Zipporah: a Fast and Scalable Data Cleaning System for Noisy Web-Crawled Parallel Corpora, Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.

Devi. Sapna, dan Kalia, Arvind. 2015. Study of Data Cleaning & Comparison of Data Cleaning Tools. IJCSMC, Vol. 4, Issue. 3, March 2015.

Koehn, Philipp. 2016. MOSES Statistical Machine Translation User Manual dan Code Guide. The University of Edinburgh.

Maghfira, Tusty Nadia. 2017. Deteksi Kesalahan Ejaan dan Penentuan Rekomendasi Koreksi Kata yang Tepat Pada Dokumen Jurnal JTIIK Menggunakan Dictionary Lookup dan Damerau-Levenshtein Distance. Malang, Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Vol. 1, No. 6, Juni 2017

Hasbiansyah , Muhammad. 2016. Tuning For Quality Untuk Uji Akurasi Mesin Penerjemah Statistik (MPS) Bahasa Indonesia - Bahasa Dayak Kanayatn. Pontianak, JEPIN Vol 1 No 1 2016.

Hadi, Ibnu. 2014. Uji Akurasi Mesin Penerjemah Statistik Bahasa Indonesia ke Bahasa Melayu Sambas dan Bahasa Melayu Sambas ke Bahasa Indonesia. Pontianak, JUSTIN Vol 3 No 1. 2014

Manindra, Soni. 2016. Perbaikan Probabilitas Lexical Model untuk Meningkatkan Akurasi Mesin Penerjemah Statistik. Pontianak, JEPIN Vol 2 No 1 2016.

Y. Jarob, H. Sujaini dan N. Safriadi, Uji Akurasi Penerjemahan Bahasa Indonesia – Dayak Taman dengan Penandaan Kata Dasar dan Imbuhan, JEPIN, Vol. 2 No. 2, 2016.




DOI: http://dx.doi.org/10.26418/jp.v4i1.24595

Refbacks

  • There are currently no refbacks.