Analisis Pengaruh Penerapan Stopword Removal Pada Performa Klasifikasi Sentimen Tweet Bahasa Indonesia
Abstract
Sehubung dengan mudahnya akses digital seperti penggunaan media sosial twitter, maka setiap individu menjadi lebih bisa untuk saling berinteraksi dalam bertukar pendapat, argumen dan pokok pikiran. Sehingga ketersediaan data untuk dikumpulkan dan diolah menjadi suatu informasi seperti sentimen analisis terasa lebih gampang dan cepat untuk didapatkan. Melalui analisis sentimen atau opinion mining, maka sentimen analisis dapat diklasifikasikan menjadi 3 jenis, yaitu sentimen positif, netral dan negatif. Tujuan penelitian ini adalah untuk menghasilkan model klasifikasi dengan performa terbaik dan optimal dalam melakukan klasifikasi sentimen tweet Bahasa Indonesia dan juga untuk mengetahui pengaruh penerapan Stopword Removal dalam membangun model klasifikasi sentimen analisis. Adapun agoritma yang digunakan pada penelitian ini adalah algoritma Naïve Bayes dan Decision Tree. Berdasarkan hasil evaluasi, model klasifikasi terbaik pada penelitian ini adalah dengan pengimplementasian algoritma Naïve Bayes tanpa disertai Stopword Removal dengan nilai
f1-score sebesar 71.78%. Sedangkan model klasifikasi terburuk pada penelitian ini adalah pada pengimplementasian algoritma Decision Tree tanpa disertai Stopword Removal dengan nilai f1-score sebesar 58.08%. Untuk penerapan Stopword Removal, pada algoritma Decision Tree penerapannya lebih memberikan performa optimal jika dibandingkan dengan algoritma Naïve Bayes. Hal ini terlihat dengan terjadinya peningkatan nilai f1-score pada algoritma Decision Tree dan penurunan nilai f1-score pada algoritma Naïve Bayes. Salah satu faktor penurunan ini ialah dikarenakan Stopword Removal dapat mengurangi informasi dan mengubah makna tweet yang diolah dikarenakan ia akan melakukan penghapusan pada kata yang masuk kedalam daftar stoplist, sehingga tweet tersebut kehilangan sentimennya. Ditambah lagi penerapan stoplist NLTK yang digunakan untuk melakukan Stopword Removal pada penelitian ini lebih bekerja optimal pada pengklasifikasian dokumen dibandingkan sentimen.
Keywords
Full Text:
PDFReferences
T. Krisdiyanto, “Analisis Sentimen Opini Masyarakat Indonesia Terhadap Kebijakan PPKM pada Media Sosial Twitter Menggunakan Naïve Bayes Clasifiers,” J. CoreIT J. Has. Penelit. Ilmu Komput. dan Teknol. Inf., vol. 7, no. 1, p. 32, 2021, doi: 10.24014/coreit.v7i1.12945.
S. Khairunnisa, A. Adiwijaya, and S. Al Faraby, “Pengaruh Text Preprocessing terhadap Analisis Sentimen Komentar Masyarakat pada Media Sosial Twitter (Studi Kasus Pandemi COVID-19),” J. Media Inform. Budidarma, vol. 5, no. 2, p. 406, 2021, doi: 10.30865/mib.v5i2.2835.
F. Taufiqurrahman, S. Al Faraby, and M. D. Purbolaksono, “Klasifikasi Teks Multi Label pada Hadis Terjemahan Bahasa Indonesia Menggunakan Chi Square dan SVM,” e-Proceeding Eng., vol. 8, no. 5, pp. 10650–10659, 2021.
E. D. N. Sari and I. Irhamah, “Analisis Sentimen Nasabah pada Layanan Perbankan Menggunakan Metode Regresi Logistik Biner, Naïve Bayes Classifier (NBC), dan Support Vector Machine (SVM),” J. Sains dan Seni ITS, vol. 8, no. 2, 2020, doi: 10.12962/j23373520.v8i2.44565.
S. Sarimuddin, J. Y. Sari, M. Mail, M. A. Masalu, R. S. Aristika, and N. Nurfagra, “Klasifikasi Data Aging Tunggakan Nasabah Menggunakan Metode Decision Tree Pada ULaMM Unit Kolaka,” INFORMAL Informatics J., vol. 5, no. 1, p. 26, 2020, doi: 10.19184/isj.v5i1.16964.
R. Ferdiana, F. Jatmiko, D. D. Purwanti, A. S. T. Ayu, and W. F. Dicka, “Dataset Indonesia untuk Analisis Sentimen,” J. Nas. Tek. Elektro dan Teknol. Inf., vol. 8, no. 4, p. 334, 2019, doi: 10.22146/jnteti.v8i4.533.
A. N. Assidyk, E. B. Setiawan, and I. Kurniawan, “Analisis Perbandingan Pembobotan TF-IDF dan TF-RF pada Trending Topic di Twitter dengan Menggunakan Klasifikasi K-Nearest Neighbor,” e-Proceeding Eng., vol. 7, no. 2, pp. 7773–7781, 2020.
C. Cahyaningtyas, Y. Nataliani, and I. R. Widiasari, “Analisis Sentimen Pada Rating Aplikasi Shopee Menggunakan Metode Decision Tree Berbasis SMOTE,” Aiti, vol. 18, no. 2, pp. 173–184, 2021, doi: 10.24246/aiti.v18i2.173-184.
S. Sofyan and A. Prasetyo, “Penerapan Synthetic Minority Oversampling Technique (SMOTE) Terhadap Data Tidak Seimbang Pada Tingkat Pendapatan Pekerja Informal Di Provinsi D.I. Yogyakarta Tahun 2019,” Semin. Nas. Off. Stat., vol. 2021, no. 1, pp. 868–877, 2021, doi: 10.34123/semnasoffstat.v2021i1.1081.
D. Darwis, N. Siskawati, and Z. Abidin, “Penerapan Algoritma Naive Bayes Untuk Analisis Sentimen Review Data Twitter Bmkg Nasional,” J. Tekno Kompak, vol. 15, no. 1, p. 131, 2021, doi: 10.33365/jtk.v15i1.744.
W. Yulita, “Analisis Sentimen Terhadap Opini Masyarakat Tentang Vaksin Covid-19 Menggunakan Algoritma Naïve Bayes Classifier,” J. Data Min. dan Sist. Inf., vol. 2, no. 2, p. 1, 2021, doi: 10.33365/jdmsi.v2i2.1344.
N. S. Wardani, A. Prahutama, and P. Kartikasari, “Analisis Sentimen Pemindahan Ibu Kota Negara Dengan Klasifikasi Naïve Bayes Untuk Model Bernoulli Dan Multinomial,” J. Gaussian, vol. 9, no. 3, pp. 237–246, 2020, doi: 10.14710/j.gauss.v9i3.27963.
A. Pangestu, “Application Based of E-Commerce Poverty Prediction Data Processing,” e-Proceeding Appl. Sci., vol. 6, no. 2, pp. 1729–1740, 2020.
S. Khomsah and Agus Sasmito Aribowo, “Model Text-Preprocessing Komentar Youtube Dalam Bahasa Indonesia,” Rekayasa Sist. dan Teknol. Informasi, RESTI, vol. 4, no. 10, pp. 648–654, 2020.
DOI: http://dx.doi.org/10.26418/jari.v2i1.69680
Refbacks
- There are currently no refbacks.
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
View My Stats
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.