Pengaruh Domain Teks pada Korpus Terhadap Akurasi Mesin Penerjemah Statistik

Khamsah Akbar, Herry Sujaini, Rudy Dwi Nyoto

Abstract


Salah satu faktor yang mempengaruhi tingkat akurasi suatu mesin penerjemah statistik adalah adanya suatu korpus yang baik sebagai sumber data yang digunakan untuk pembuatan mesin penerjemah statistik sehingga korpus yang dihasilkan dapat akurat dan memiliki persentase yang tinggi pada saat melakukan penerjemahan. Beberapa kriteria dari suatu korpus yang baik adalah orientasi ke bahasa atau variasi untuk dijadikan sampel, kriteria yang akan kita pilih yang meliputi mode teks, jenis teks, domain teks, bahasa, lokasi teks, tanggal teks serta sifat dan dimensi sampel [1]. Tujuan yang ingin dicapai dalam penelitian ini adalah untuk mengetahui seberapa besar pengaruh domain teks pada korpus terhadap nilai akurasi hasil terjemahan pada mesin penerjemah statistik Bahasa Inggris ke Bahasa Indonesia. Pengujian untuk mendapatkan nilai akurasi dilakukan dengan dua cara, yaitu pengujian otomatis menggunakan Bilingual Evaluation Understudy (BLEU) dan pengujian manual oleh ahli bahasa Inggris. Untuk pengujian otomatis dilakukan pada setiap mesin penerjemah yang sudah dibangun dengan pembagian fold pada korpus. Pengujian manual dilakukan oleh seorang ahli Bahasa Inggris dengan korpus uji sebanyak 100 kalimat. Berdasarkan hasil pengujian, domain teks pada korpus memiliki perbedaan nilai akurasi terjemahan dari mesin penerjemah statistik bahasa Inggris – bahasa Indonesia yaitu sebesar 7,6409% pada pengujian dengan BLEU dan 1,01% untuk pengujian oleh ahli bahasa.


Keywords


Korpus; Mesin Penerjemah Statistik; Domain Teks; Korpus Spesifik; Korpus Campuran

Full Text:

PDF

References


Sinclair, J. 2004. Intuition and annotation - the discussion continues. In Advances in corpus linguistics. Papers from the 23rd International Conference on English Language Research on Computerized corproa (ICAME 23).Göteborg 22-26 May 2002. , eds. Karin Aijmer and Bengt Altenberg, 39-59. Amsterdam/New York: Rodopi.

Daume III, Hal and Jagarlamudi, Jagadeesh (2011): Domain Adaptation for Machine Translation by Mining Unseen Words, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Techologies.

Jia Xu and Yonggang Deng and Yuqing Gao and Hermann Ney (2007): Domain Dependent Statistical Machine Translation, Proceedings of the MT Summit X.

Wu, Hua and Wang, Haifeng and Zong, Chengqing (2008): Domain Adaptation for Statistical Machine Translation with Domain Dictionary and Monolingual Corpora, Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008).

Nakov, Preslav and Ng, Hwee Tou (2009): NUS at WMT09: Domain Adaptation Experiments for English-Spanish Machine Translation of News Commentary Text, Proceedings of the Fourth Workshop on Statistical Machine Translation.

Andre Castilla and Alice Bacic and Sergio Furuie (2005): Machine Translation on the Medical Domain: The Role of BLEU/NIST and METEOR in a Controlled Vocabulary Setting, Proceedings of the Tenth Machine Translation Summit (MT Summit X).

McEnery, T. & Gabrielatos, C. (2006). English corpus linguistics. In Aarts, B. & McMahon, A. (Eds.), The Handbook of English Linguistics (pp. 33-71). Oxford: Blackwell.

Hunston, S. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge University Press.

Amalia, Farida. 2009. “Ideologi dalam Penerjemahan”. Makalah disajikan dalam Forum Ilmiah Pengajar Bahasa Prancis Prancis se Indonesia di Bandung.

Sudarno, A.P. 2011. Penerjemahan Buku Teori dan Aplikasi. Surakarta :UNS Press.

Sheddy, N. Tjandra. 2005. Analisis Penerjemahan. Jakarta, library UI Vol 8 No 1, hal 168-173, 2005.

Tanuwijaya, Hansel. 2009. Penerjemahan Inggris-Indonesia Menggunakan Mesin Penerjemah Statistik Dengan Word Reordering dan Phrase Reordering. Jakarta, Jurnal ilmu Komputer dan Informasi Vol 2 No 1, hal 17-24, 2009.

Hadi, Ibnu. 2014. Uji Akurasi Mesin Penerjemah Statistik Bahasa Indonesia ke Bahasa Melayu Sambas dan Bahasa Melayu Sambas ke Bahasa Indonesia. Pontianak, JUSTIN Vol 3 No 1, hal 127-135, 2014.

Manning, Christopher D. dan Schutze, Hinrich. 2000. Foundations Of Statistical Natural Language Processing. London : The MIT Press Cambridge Massachusetts.

Sujaini, Herry., Negara, Arif Bijaksana Putra. 2015. Analysis of Extended Word Similarity Clustering based Algorithm on Cognate Language. Gujarat: ESRSA Publications Pvt. Ltd.

Y.Jarob, H. Sujaini dan N. Safriadi. 2016. Uji Akurasi Penerjemahan Bahasa Indonesia – Dayak Taman dengan Penandaan Kata Dasar dan Imbuhan. JEPIN, Vol. 2 No. 2.

Hasbiansyah, Muhammad. 2016. Tuning For Quality Untuk Uji Akurasi Mesin Penerjemah Statistik (MPS) Bahasa Indonesia - Bahasa Dayak Kanayatn. Pontianak, JUSTIN Vol 1 No 1, hal 1-6, 2016.

Koehn, Philipp. 2007. Moses:Open Source Toolkit for Statistical Machine Translation. Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic.

Papineni, Kishore., Roukos, Salim., Ward, Todd., and Zhu, Wei-Jing. 2002. BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL). Philadelphia, Juli 2002. IBM T. J. Watson Research Center.

Triawati, Candra. 2009. Metode Pembobotan Statistical Concept Based untuk Klastering dan Kategorisasi Dokumen Berbahasa Indonesia. Jakarta: IT TELKOM.




DOI: http://dx.doi.org/10.26418/justin.v6i4.27383

Refbacks

  • There are currently no refbacks.


Copyright (c) 2018 JUSTIN (Jurnal Sistem dan Teknologi Informasi)

ara komputer
View My Stats

Creative Commons License
All article in Justin is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License