RANCANG BANGUN APLIKASI INFORMATION RETRIEVAL UNTUK MENGKOLEKSI DATA PARALEL KORPUS TEKS BAHASA INGGRIS – BAHASA INDONESIA

Edy Septiandri

Abstract


Abstrak - Paralel korpus merupakan dua dokumen teks yang saling berhubungan dimana dokumen teks pertama berisi kumpulan kalimat sumber dan dokumen teks kedua berisi kumpulan kalimat terjemahannya. Paralel korpus berfungsi sebagai sumber utama dalam mengembangkan sebuah Mesin Penerjemah Statistik. Hasil terjemahan dari sebuah Mesin Penerjemah Statistik tergantung pada jumlah dari paralel korpus yang tersedia. Pembuatan paralel korpus secara manual tidaklah mudah, karena akan memakan waktu yang lama, memerlukan biaya yang tidak sedikit dan jumlah dokumen yang terbatas. Sistem temu balik informasi atau information retrieval dapat membantu dalam hal mengelola dan menemukan kembali dokumen secara cepat dan efektif. Sistem ini dibuat untuk mengkoleksi data parlel korpus khususnya bahasa Indonesia dan Inggris, dimana output dari aplikasi ini akan menambah perbendaharaan paralel korpus bahasa Indonesia-Inggris. Sistem ini mampu untuk mengumpulkan dokumen secara otomatis dari sebuah website yang telah ditentukan, dan sasarannya hanya dokumen yang berbahasa Indonesia dan Inggris. Dokumen yang telah terkumpul akan dibersihkan dari semua tanda baca yang tidak diperlukan dengan metode tokenization, setelah itu dokumen tersebut akan diproses kembali untuk memisahkan antara kalimat sumber dan kalimat terjemahannya dengan metode parse. Setelah semua proses selesai maka akan menghasilkan sebuah paralel korpus. Aplikasi information retrieval ini akan mempermudah dalam pembuatan sebuah paralel korpus dan akan memperkaya perbendaharaan paralel korpus bahasa Indonesia-Inggris.

 

 


Keywords


paralel korpus, mesin penerjemah statistik, sistem temu balik informasi, tokenization, parse.

Full Text:

PDF

References


Amin, Fakhtul. 2012. Sistem Temu Balik Informasi Dengan Metode VectorSpace Model. Jurnal Sistem InformasiBisnis. Unduh:http://ejournal.undip.ac.id/index.php/jsinbis/article/downloadSuppFile/37/303.

Gusmita, R. H. dan Manurung, R.2008. Some initial experiments withindonesian probabilistic parsing.Malaysia: MALINDO Workshop.

Hadhiatma, Agung. 2010. PencarianDokumen Berdasarkan KombinasiAntara Model Ruang Vektor DanModel Domain Ontologi. Yogyakarta:semnasIF.

Sasongko, Jati. 2010. Aplikasi untukMembangun Corpus dari Data HasilCrawling dengan Berbagai FormatData Secara Otomatis. JurnalTeknologi Informasi Dinamik. Unduh:http://www.unisbank.ac.id/ojs/index.php/fti1/article/download/107/102.

Siagian, Adelina Irmadewita. 2012.Implementasi Corpus Generator Dengan Parallel Text. Unduh:http://repository.usu.ac.id/bitstream/123456789/33897/4/Chapter%20II.pdf.

Sujaini, Herry. 2012. Korpus Paralel Indonesia - Inggris. Unduh:

http://herrysujaini.blogspot.com/2012/05/korpus-paralel-indonesia-inggris.html.


Refbacks

  • There are currently no refbacks.


Copyright (c)

View My Stats
Creative Commons License
All article in Justin is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License