Rancang Bangun Aplikasi Web Scraping untuk Korpus Paralel Indonesia - Inggris dengan Metode HTML DOM

Vivensius Mitra, Herry Sujaini, Arif Bijaksana Putra Negara

Abstract


Korpus paralel merupakan dua dokumen text yangsaling berhubungan dimana dokumen text pertama berisikumpulan kalimat sumber dan dokumen kedua berisi kumpulankalimat terjemahan. Korpus paralel berfungsi sebagai sumberutama dalam mengembangkan mesin penerjemah statistik.Pengumpulan korpus paralel secara manual memerlukan waktuyang lama dan biaya yang tidak sedikit. Web scraping adalahsuatu teknik penggalian informasi dari situs web. Pembuatanaplikasi web scraping dapat dikombinasikan dengan berbagaimetode, dalam penelitian ini metode yang digunakan adalahHTML DOM. Sistem ini dibangun untuk mengumpulkan korpusparalel Bahasa Indonesia dan Inggris. Pengujian dari aplikasi iniadalah menggunakan metode blackbox, serta beberaparangkaian pengujian secara manual untuk mengetahui tingkatkeberhasilan aplikasi ini dalam mengumpulkan data korpusparalel dan kecepatan sistem dalam mengumpulkan korpusparalel. Hasil implementasi dan pengujian akhir dari aplikasiweb scraping dengan metode HTML DOM adalah proses yangberjalan dalam aplikasi web scraping dengan metode HTMLDOM adalah proses scraping, tokenisasi, cleaning, danlowercased, semua proses tersebut berjalan secara otomatissehingga sangat menghemat waktu dan biaya dan menghasilkankorpus paralel Bahasa Indonesia dan Inggris.

Keywords


Web Scraping; HTML DOM; Korpus Paralel; Tokenisasi; Mesin Penerjemah Statistik

Full Text:

PDF

References


Septiandri, Edy. 2015. Rancang Bangun Aplikasi Information Retrieval Untuk Mengkoleksi Data Paralel Korpus Teks Bahasa Inggris – Bahasa Indonesia.Skripsi. Pontianak : Fakultas Teknik, Universitas Tanjungpura.

Sujaini, Herry. 2012. An Approach to Improving Corpus Quality for Indonesian - English Statistical Machine Translation. International Journal of Engineering Research & Technology (IJERT) ISSN : 2278 -0181 Vol. 4 Issue 02.

Larasati, Septina Dian. 2012. IDENTIC Corpus: Morphologically EnrichedIndonesian -English Parallel Corpus. /[12 Oktober 2016] Unduh:http://ufal.mff.cuni.cz/~larasati/identic/.Muchtar, Januar. 2009.

Turland, M. 2010. php architect's Guide to Web Scraping with PHP. Introduction -Web Scraping, str,2.

Josi, Ahmat., Abdillah, L.A., & Suryayusra. 2014. Penerapan Teknik Web Scraping Pada Mesin Pencari Artikel Ilmiah. Jurnal Sistem Invormasi (JSI), 5(2), 159 - 164.

HTML DOM.. http://www.w3ii.com/id///js/js_htmldom.html [7] Tokenization. http://nlp.stanford.edu/IR - book/html/htmleditiontokenization -1.html. [8] Siagian, Adelina Irmadewita. 2012. Implementasi Corpus Generator Dengan Parallel Text. Skripsi. Medan : Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. [9] Ariani, Sukamto Rosa. 2009. Black -Box Testing, Testing dan Implementasi Sistem.


Refbacks

  • There are currently no refbacks.


Copyright (c)

ara komputer View My Stats
Creative Commons License
All article in Justin is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License