Perbandingan Nilai Akurasi Terhadap Penggunaan Part of Speech Set pada Mesin Penerjemah Statistik

Eric Dharmawan, Herry Sujaini, Hafiz Muhardi

Abstract


Part of speech pada mesin penerjemah statistik sebagai faktor tambahan sudah beberapa dilakukan terhadap bahasa daerah di Indonesia. Part of speech (PoS) untuk bahasa Indonesia pula sudah banyak dikembangkan oleh beberapa peneliti sebelumnya. Penelitian ini menganalisa pengaruh penggunaan dua tagset PoS berbeda terhadap hasil terjemahan mesin penerjemah. Tagset PoS yang digunakan adalah milik Wicaksono dan Dinakaramani. Mesin penerjemah dibangun dengan korpus paralel Bahasa Indonesia dan Bahasa Melayu Putussibau yang sudah ditandai dengan tagset PoS. Proses pengujian menggunakan 2 cara yaitu pengujian otomatis menggunakan tools BLEU dan pengujian manual yang dinilai oleh penutur bahasa terhadap hasil terjemahan mesin penerjemah. Hasil pengujian otomatis dengan skenario kedua menunjukkan penerjemahan dengan menambahkan faktor PoS dapat meningkatkan akurasi hasil terjemahan, namun dapat pula menurunkan hasil terjemahan yang dapat disebabkan oleh kuantitas atau kualitas dari korpus traning. Selain itu menunjukkan pula persentase peningkatan akurasi yang signifikan pada korpus training 5500 terjadi pada Mesin2 (tagset35) dengan peningkatan 14,73%, kemudian Mesin1 (tagset23) 11,31%, dan disusul oleh Mesin3 (notagset) 8,76%. Hasil pengujian dengan skenario pertama dan uji manual mendapatkan bahwa Mesin1 memiliki akurasi terjemahan lebih baik dibandingkan Mesin2. Dengan uji BLEU Mesin1 memiliki akurasi terjemahan (42,39) dan Mesin2 dengan akurasi terjemahan (41,61). Sedangkan untuk uji manual oleh Sigit Heru nilai akurasi Mesin1 (87,47%) dan Mesin2 (83,29%), kemudian oleh Titin Rahayu nilai akurasi Mesin1 (90,91%) dan Mesin2 (86,57%).


Keywords


Mesin Penerjemah Statistik; Model Terjemahan Faktor; Part of Speech

Full Text:

PDF

References


A. Setiawan, H. Sujaini, and A. B. Pn, “Implementasi Optical Character Recognition ( OCR ) pada Mesin Penerjemah Bahasa Indonesia ke Bahasa Inggris,” J. Sist. dan Teknol. Inf., vol. 5, no. 2, pp. 135–141, 2017.

H. Sujaini, “Peningkatan Akurasi Penerjemah Bahasa Daerah dengan Optimasi Korpus Paralel,” J. Nas. Tek. Elektro dan Teknol. Inf., vol. 7, no. 1, 2018, doi: 10.22146/jnteti.v7i1.394.

A. F. Abka, “Evaluating the use of word embeddings for part-of-speech tagging in Bahasa Indonesia,” Proceeding - 2016 Int. Conf. Comput. Control. Informatics its Appl. Recent Prog. Comput. Control. Informatics Data Sci. IC3INA 2016, pp. 209–214, 2017, doi: 10.1109/IC3INA.2016.7863051.

D. Indrayana, H. Sujaini, and N. Safriadi, “Meningkatkan Akurasi Pada Mesin Penerjemah Bahasa Indonesia Ke Bahasa Melayu Pontianak Dengan Part Of Speech,” vol. 3, no. 1, pp. 1–5, 2016.

M. Kamayani, “Perkembangan Part-of-Speech Tagger Bahasa Indonesia,” J. Linguist. Komputasional, vol. 2, no. 2, p. 34, 2019, doi: 10.26418/jlk.v2i2.20.

A. Purwantiari and T. Suhardijanto, “INACL POS Tagging Convention Konvensi Pelabelan Kelas Kata INACL / MALKIN,” 2017.

F. Pisceldo, M. Adriani, and R. Manurung, “Probabilistic Part of Speech Tagging for Bahasa Indonesia,” Proc. 3rd Int. MALINDO Work. Coloca. event ACL-IJCNLP, 2009.

A. F. Wicaksono, “HMM Based Part-of-Speech Tagger for Bahasa Indonesia HMM Based Part-of-Speech Tagger for Bahasa Indonesia,” no. January 2010, 2014.

S. D. Larasati, V. Kuboň, and D. Zeman, “Indonesian morphology tool (MorphInd): Towards an Indonesian corpus,” Commun. Comput. Inf. Sci., vol. 100 CCIS, pp. 119–129, 2011, doi: 10.1007/978-3-642-23138-4_8.

A. Dinakaramani, F. Rashel, A. Luthfi, and R. Manurung, “Designing an Indonesian part of speech tagset and manually tagged Indonesian corpus,” Proc. Int. Conf. Asian Lang. Process. 2014, IALP 2014, pp. 66–69, 2014, doi: 10.1109/IALP.2014.6973519.

S. Fu, N. Lin, G. Zhu, and S. Jiang, “Towards Indonesian Part-of-Speech Tagging : Corpus and Models,” Proc. Lr. 2018 Work. Belt Road Lr., vol. 1, pp. 2–7, 2018.

V. Mitra, H. Sujaini, and A. B. P. Negara, “untuk Korpus Paralel Indonesia - Inggris dengan Metode HTML DOM,” J. Sist. dan Teknol. Inf., vol. 5, no. 1, pp. 1–6, 2017.

K. M. Lelywiary, C. J. S.; Widowati, S.; & L, “Deteksi Pola Ambiguitas Struktural pada Spesifikasi Perangkat Lunak menggunakan Pemrosesan Bahasa Alami,” vol. 4, pp. 51–64, 2019, doi: 10.21108/indojc.2019.4.3.355.

K. E. Dewi, N. I. Widiastuti, and E. Rainarli, “Evaluasi Sentence Extraction pada Peringkasan Dokumen Otomatis,” no. September, pp. 8–12, 2017.

P. Koehn and H. Hoang, “Factored translation models,” EMNLP-CoNLL 2007 - Proc. 2007 Jt. Conf. Empir. Methods Nat. Lang. Process. Comput. Nat. Lang. Learn., no. June, pp. 868–876, 2007.

V. M. Sánchez-Cartagena, N. Ljubešić, and F. Klubička, “Dealing with data sparseness in SMT with factored models and morphological expansion: A case study on Croatian,” Proc. 19th Annu. Conf. Eur. Assoc. Mach. Transl. EAMT 2016, vol. 4, no. 2, pp. 354–360, 2016.

P. Bhattacharyya, “Role of Morphology Injection in SMT : A Case Study,” vol. 17, no. 1, 2017.

H. Thu, Z. Aye, C. Ding, W. P. Pa, and K. T. Nwet, “English-to-Myanmar Statistical Machine Translation Using a Language Model on Part-of-Speech in Decoding,” Fifteenth Int. Conf. Comput. Appl. (ICCA 2017), 2017.

J. Tiedemann et al., “Phrase-Based SMT for Finnish with More Data, Better Models and Alternative Alignment and Translation Tools,” vol. 2, pp. 391–398, 2016, doi: 10.18653/v1/w16-2326.

S. Mandira, H. Sujaini, and A. B. Putra, “Perbaikan Probabilitas Lexical Model Untuk Meningkatkan Akurasi Mesin Penerjemah Statistik,” J. Edukasi dan Penelit. Inform., vol. 2, no. 1, pp. 3–7, 2016, doi: 10.26418/jp.v2i1.13393.

H. Sujaini, A. A. Arman, and A. Purwarianti, “Pengaruh Part-of-Speech Pada Mesin Penerjemah Bahasa Inggris-Indonesia Berbasis Factored Translation Model,” vol. 2012, no. Snati, pp. 15–16, 2012.

P. Koehn, Statistical Machine Translation. Cambridge University Press, 2010.




DOI: http://dx.doi.org/10.26418/justin.v8i3.39810

Refbacks

  • There are currently no refbacks.


Copyright (c) 2020 Jurnal Sistem dan Teknologi Informasi (JUSTIN)

ara komputer
View My Stats

Creative Commons License
All article in Justin is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License