Perbandingan Gini Index dan Chi Square pada Sentimen Analsis Ulasan Film menggunakan Support Vector Machine Classifier

Mahendra Dwifebri Purbolaksono, Deninsyah Tiya Bella Pratama, Fahmi Hamzah

Abstract


Pada era informasi ini semakin banyak penilaian, pendapat dan pandangan yang dapat ditemukan secara luas di dunia maya. Contohnya adalah ulasan film, di mana penonton berbagi pandangannya mengenai sebuah film. Ulasan film adalah platform di mana para penggemar film dapat mengungkapkan pendapat mereka, baik itu dalam bentuk komentar negatif atau pun positif. Sebagian besar website untuk ulasan film sudah memiliki rating atau bintang, namun rating tinggi tidak selalu diiringi oleh ulasan yang baik begitu pun sebaliknya. Untuk itu, dibutuhkan metode untuk menganalisis teks dengan tujuan mengklasifikasikan apakah ulasan film tersebut termasuk dalam kategori negatif ataupun positif. Teknik yang digunakan adalah analisis sentimen atau opinion mining. Analisis sentimen adalah bidang dalam machine learning yang bertujuan untuk mengambil informasi bersifat subjektif dari teks ulasan. Salah satu metode klasifikasi machine learning adalah Support Vector Machine (SVM). Namun semakin banyak data akan muncul beberapa masalah yaitu banyaknya kata atau fitur yang tidak relevan menyebabkan kinerja pengklasifikasian menurun. Fitur tidak relevan akan menyebab perfomansi yang rendah. Seleksi fitur Gini Indeks dan Chi-Square dibandingkan untuk mengatasi masalah kata yang tidak relevan. Pada penelitian ini, metode klasifikasi SVM kombinasikan dengan metode seleksi fitur untuk meningkatkan performansi. Kombinasi SVM dan Gini Index menghasilkan performansi F1-score sebesar 85.8%. Sedangkan menggunakan SVM dan Chi-Square menghasilkan performansi F1-score tertinggi yaitu sebesar 89.2%.


Keywords


Chi-Square; Feature Selection; Gini Index; Machine Learning; Sentiment Analysis; Support Vector Machine

Full Text:

PDF

References


D. D. Tran, T. T. S. Nguyen, and T. H. C. Dao, “Sentiment Analysis of Movie Reviews Using Machine Learning Techniques,” 2022, pp. 361–369. doi: 10.1007/978-981-16-2377-6_34.

F. Hemmatian, and M. K. Sohrabi. "A survey on classification techniques for opinion mining and sentiment analysis." Artificial intelligence review vol 52, pp. 1495-1545, 2019, doi: 10.1007/s10462-017-9599-6.

Y. Al Amrani, M. Lazaar, and K. E. El Kadiri, “Random Forest and Support Vector Machine based Hybrid Approach to Sentiment Analysis,” Procedia Comput Sci, vol. 127, pp. 511–520, 2018, doi: 10.1016/j.procs.2018.01.150.

M. Guia, R. Silva, and J. Bernardino, “Comparison of Naïve Bayes, Support Vector Machine, Decision Trees and Random Forest on Sentiment Analysis,” in Proceedings of the 11th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management, SCITEPRESS - Science and Technology Publications, pp. 525–531, 2019, doi: 10.5220/0008364105250531.

Kou, G., Yang, P., Peng, Y., Xiao, F., Chen, Y., & Alsaadi, F. E, “Evaluation of feature selection methods for text classification with small datasets using multiple criteria decision-making methods,” in Applied Soft Computing, vol. 86, pp 105836, 2020, doi: 10.1016/j.asoc.2019.105836.

Deng, X., Li, Y., Weng, J., and Zhang, J, “Feature selection for text classification: A review,” Multimedia Tools and Applications, vol 78, pp 3797-3816, 2019, doi: 10.1007/s11042-018-6083-5.

Nurhayati, A. E. Putra, L. K. Wardhani, and Busman, “Chi-Square Feature Selection Effect on Naive Bayes Classifier Algorithm Performance For Sentiment Analysis Document,” in 2019 7th International Conference on Cyber and IT Service Management (CITSM), IEEE, Nov. 2019, pp. 1–7. doi: 10.1109/CITSM47753.2019.8965332.

Riko Bintang Purnomoputra, Adiwijaya Adiwijaya, and Untari Novia Wisesty, “Sentiment Analysis of Movie Review Using Naïve Bayes Method with Gini Index Feature Selection,” Journal of Data Science and Its Applications, vol. 2, no. 2, pp. 85–94, Jul. 2019.

A. W. Romadon, K. M. Lhaksmana, I. Kurniawan, and D. Richasdy, “Analyzing TF-IDF and Word Embedding for Implementing Automation in Job Interview Grading,” in 2020 8th International Conference on Information and Communication Technology (ICoICT), IEEE, Jun. 2020, pp. 1–4. doi: 10.1109/ICoICT49345.2020.9166364.

Riski Anisa, “Pendekatan Metode Feature Extraction Dengan Algoritma Naïve Bayes,” in Konferensi Nasional Ilmu Sosial dan Teknologi, 2017, pp. 19–24.

M. Das, and P. J. A. Alphonse. "A comparative study on tf-idf feature weighting method and its analysis using unstructured dataset." arXiv preprint arXiv:2308.04037, 2023 doi: 10.48550/arXiv.2308.04037.

Tyas Setiyorini and Rizky Tri Asmono, “Penerapan Metode K-Nearest Neighbor Dan Gini Index Pada Klasifikasi Kinerja Siswa,” Jurnal TECHNO Nusa Mandiri, vol. 16, no. 2, pp. 121–126, 2019.

A. S. Manek, P. D. Shenoy, M. C. Mohan, and V. K. R, “Aspect term extraction for sentiment analysis in large movie reviews using Gini Index feature selection method and SVM classifier,” World Wide Web, vol. 20, no. 2, pp. 135–154, Mar. 2017, doi: 10.1007/s11280-015-0381-x.

M. Bendtsen, “A Gentle Introduction to the Comparison Between Null Hypothesis Testing and Bayesian Analysis: Reanalysis of Two Randomized Controlled Trials,” J Med Internet Res, vol. 20, no. 10, p. e10873, Oct. 2018, doi: 10.2196/10873.

D. A. Pisner, and D. M. Schnyer. "Support vector machine," Machine learning, Academic Press, pp 101-121, 2020 doi: 10.1016/B978-0-12-815739-8.00006-7

M. A. Chandra, and S. S. Bedi. "Survey on SVM and their application in image classification." International Journal of Information Technology, vol. 13, pp 1-11, 2021, doi: 10.1007/s41870-017-0080-1.

M. D. Purbolaksono, F. D. Reskyadita, Adiwijaya, A. A. Suryani, and A. F. Huda, “Indonesian text classification using back propagation and sastrawi stemming analysis with information gain for selection feature,” International Journal on Advanced Science, Engineering and Information Technology, Issue 1, pp 234 – 238, 2020, doi: 10.18517/ijaseit.10.1.8858.




DOI: http://dx.doi.org/10.26418/jp.v9i3.68845

Refbacks

  • There are currently no refbacks.