Perbandingan Hasil Penerjemahan Neural Machine Translation (NMT) Dengan MarianNMT Terhadap Sumber Korpus Wikimedia dan QED&TED
Abstract
Pembelajaran bahasa dengan mesin sekarang ini sudah mencapai pada tahap dimana jumlah data memegang kunci penting pada hasilnya. Berbagai pengembangan dilakukan sehingga masalah terkait kualitas data dapat diatasi, terutama banyak terjadi di era mesin penerjemah saraf tiruan (MPST). Salah satu ide besar untuk mengembangkan pembelajaran lebih lanjut untuk hal ini adalah dengan membangun sistem secara low-resource, dimana akan memfokuskan media pembelajar untuk bekerja dan mampu membentuk pengetahuan dengan sumber data dengan kondisi tersebut. Arsitektur MPST sudah umum digunakan sebagai bagian arsitektur sistem machine translation sejak populer di WMT16, dan mempunyai kelebihan dapat melakukan berbagai tugas terkait penerjemahan bahasa secara tepat dan mudah. Tersebutlah toolkit MarianNMT, Sebuah toolkit mesin penerjemah saraf tiruan yang dikembangkan oleh tim Microsoft Translator dengan harapan menciptakan toolkit yang resource-friendly dan dapat mencapai kecepatan training dan penerrjemahan yang tinggi serta support untuk impementasi pada sistem lokal yang mengandalkan sumber daya hardware dalam device dengan GPU atau CPU. Dalam kasus penerjemahan Bahasa Inggris ke Indonesia dan menggunakan model “Nematus-Style Shallow RNN” pada MarianNMT, dalam 28 jam mampu untuk menyelesaikan training untuk kedua kasus training dengan korpus yang memiliki baris < 500K kalimat. Pada training digunakan validasi dengan repository FLORES-101, dan membawa dua kasus training dengan korpus berbeda dari Wikimedia untuk memperoleh nilai BLEU (5.2 - 4.7), SpBLEU (8.1 - 7.2) dan QED&TED dengan nilai BLEU (4.0 - 4.3) SpBLEU (6.8 - 6.9) untuk terjemahan dari korpus dev dan devtest berturut-turut. Menyimpulkan bahwa korpus Wikimedia memiliki kecocokan dengan evaluasi pelatihannya, namun belum cocok untuk melakukan penerjemahan pada bentuk kata yang tak pernah terlihat. Sedangkan pada korpus QED&TED hal tersebut tercapai walau dengan perbandingan skor yang lebih kecil.
Full Text:
PDFReferences
J. T. Collins, “Keragaman Bahasa Dan Kesepakatan Masyarakat: Pluralitas Dan Komunikasi,” Keragaman Bhs. Dan Kesepakatan Masy. Plur. Dan Komun., vol. 1, no. 2, pp. 149–180, 2014.
T. Folkman, “How To Use Deep Learning Even with Small,” Towards Data Science, 2019. https://towardsdatascience.com/how-to-use-deep-learning-even-with-small-data-e7f34b673987 (accessed May 29, 2022).
J. P. Maheswari, “Breaking the curse of small datasets in Machine Learning: Part 1,” Towards Data Science, 2018. https://towardsdatascience.com/breaking-the-curse-of-small-datasets-in-machine-learning-part-1-36f28b0c044d (accessed May 29, 2022).
R. Alencar, “Dealing with very small datasets,” Kaggle, 2019. https://www.kaggle.com/code/rafjaa/dealing-with-very-small-datasets/notebook (accessed May 28, 2022).
E. Wdowiak, “Sicilian Translator: A Recipe for Low-Resource NMT Arba Sicula,” 2021.
R. Sennrich and B. Zhang, “Revisiting Low-Resource Neural Machine Translation: A Case Study,” in Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Jul. 2019, pp. 211–221, doi: 10.18653/v1/P19-1021.
I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to Sequence Learning with Neural Networks,” Adv. Neural Inf. Process. Syst., vol. 4, no. January, pp. 3104–3112, Sep. 2014, doi: 10.48550/arxiv.1409.3215.
D. Bahdanau, K. H. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” 3rd Int. Conf. Learn. Represent. ICLR 2015 - Conf. Track Proc., Sep. 2015, doi: 10.48550/arxiv.1409.0473.
M. Junczys-Dowmunt et al., “Marian: Fast Neural Machine Translation in C++,” ACL 2018 - 56th Annu. Meet. Assoc. Comput. Linguist. Proc. Syst. Demonstr., pp. 116–121, Apr. 2018, doi: 10.18653/v1/p18-4020.
J. Tiedemann, “Parallel data, tools and interfaces in OPUS,” in Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC 2012, 2012, pp. 2214–2218, Accessed: Jun. 14, 2022. [Online]. Available: http://opus.lingfil.uu.se/OpenSubtitles2011/wordalign/.
N. Goyal et al., “The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation,” 2021, [Online]. Available: http://arxiv.org/abs/2106.03193.
T. Kudo and J. Richardson, “SentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing,” in EMNLP 2018 - Conference on Empirical Methods in Natural Language Processing: System Demonstrations, Proceedings, Nov. 2018, pp. 66–71, doi: 10.18653/v1/d18-2012.
R. Sennrich, B. Haddow, and A. Birch, “Edinburgh Neural Machine Translation Systems for WMT 16,” in Proceedings of the First Conference on Machine Translation: Volume 2, Shared Task Papers, Aug. 2016, pp. 371–376, doi: 10.18653/v1/w16-2323.
D. Bahdanau, K. H. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” 3rd Int. Conf. Learn. Represent. ICLR 2015 - Conf. Track Proc., Sep. 2015, Accessed: Mar. 17, 2021. [Online]. Available: http://arxiv.org/abs/1409.0473.
D. Jurafsky and J. Martin, Speech and Language Processing, 3rd ed. 2022.
M. Post, “A Call for Clarity in Reporting BLEU Scores,” WMT 2018 - 3rd Conf. Mach. Transl. Proc. Conf., vol. 1, pp. 186–191, Apr. 2018, doi: 10.18653/v1/w18-6319.
Refbacks
- There are currently no refbacks.