Tuning Hyperparameter pada Gradient Boosting untuk Klasifikasi Soal Cerita Otomatis

Umi Laili Yuhana, Ayu Purwarianti, Imamah Imamah

Abstract


Soal adalah susunan pertanyaan yang dibuat untuk menguji keberhasilan dari pembelajaran siswa. Bagi manusia, membedakan soal penjumlahan dengan pengurangan sangat mudah, namun tidak halnya dengan mesin. Mesin  membutuhkan pembelajaran untuk mengenali soal cerita apakah termasuk penjumlahan atau pengurangan. Kebutuhan mesin untuk mengenali soal cerita biasanya diterapkan dalam pembuatan sistem E-learning. Berdasarkan dari masalah ini, maka digunakan metode gradient boosting untuk mengklasifikasikan soal cerita. Kelas target atau label dari klasifikasi terdiri dari empat kelas yaitu penjumlahan, pengurangan, perkalian, pembagian, dan campuran.  Soal cerita diambil dari buku matematika untuk kelas tiga sampai kelas enam Sekolah Dasar. Guru Sekolah Dasar (SD) melabeli soal cerita, dan dijadikan sebagai dataset untuk pembelajaran dari machine learning. Dataset kemudian di preprocessing, ekstraksi fitur dengan menggunakan TF-IDF dan selanjutnya dibagi menjadi data training dan data testing dengan menggunakan K-fold cross validation dengan nilai K[5,10,20]. Performa metode gradient boosting dalam mengklasifikasikan soal matematika diukur dengan menggunakan akurasi. Akurasi didapatkan dari hasil perbandingan dari label yang diprediksi oleh machine learning dengan label dari pakar yaitu guru SD. Berdasarkan hasil percobaan pada 500 data soal cerita, diperoleh hasil akurasi terbaik sebesar 75,8% pada saat K=20 dengan hyperparameter gradient boosting N_estimator=100, max_depth=9 dan learning rate=0,15.


Keywords


Soal Cerita; Klasifikasi; Gradient Boosting; Grid Search; Akurasi

Full Text:

PDF

References


V. R. Oktavia, U. L. Yuhana, C. Fatichah, and A. Purwarianti, “WPS: Application for Generating Answer of Word Problem in Bahasa Indonesia,” in 2021 International Conference on ICT for Smart Society (ICISS), 2021, pp. 1–6.

O. N. Fathani, Sunardi, and M. Irfan, “Analisis Level Pertanyaan Pada Soal Cerita Matematika dalam Buku Erlangga Straight Point Series Kelas V SD Berdasarkan Taksonomi SOLO,” J. Ilmu Pendidik. Sekol. Dasar, vol. 08, pp. 68–74, 2021.

D. J. Haryanto, L. Muflikhah, and M. A. Fauzi, “Analisis Sentimen Review Barang Berbahasa Indonesia Dengan Metode Support Vector Machine Dan Query Expansion,” J. Pengemb. Teknol. Inf. dan Ilmu Komput. Univ. Brawijaya, vol. 2, no. 9, pp. 2909–2916, 2018.

K. F. Hew, X. Hu, C. Qiao, and Y. Tang, “What predicts student satisfaction with MOOCs: A gradient boosting trees supervised machine learning and sentiment analysis approach.,” Comput. Educ., no. 103724, 2019.

A. Onan, S. Korukoğlu, and H. Bulut, “A hybrid ensemble pruning approach based on consensus clustering and multi-objective evolutionary algorithm for sentiment classification,” Inf. Process. Manag., vol. 53, no. 4, pp. 814–833, 2017, doi: 10.1016/j.ipm.2017.02.008.

M. Kang, J. Ahn, and K. Lee, “Opinion mining using ensemble teks hidden Markov models for text classification,” Expert Syst. Appl., vol. 94, pp. 218–227, 2018, doi: 10.1016/j.eswa.2017.07.019.

Y. Zhang, D. Miao, J. Wang, and Z. Zhang, “A cost-sensitive three-way combination technique for ensemble learning in sentiment classification,” Int. J. Approx. Reason., vol. 105, pp. 85–97, 2019, doi: 10.1016/j.ijar.2018.10.019.

J. H. Friedman, “Greedy function approximation: A gradient boosting machine,” Ann. Stat., vol. 29, no. 5, pp. 1189–1232, 2001.

H. H. Parmar, S. Bhanderi, and G. Shah, “Sentiment Mining of Movie Reviews using Random Forest with Tuned Hyperparameters,” 2014.

M. I. Gunawan, D. Sugiarto, and I. Mardianto, “Peningkatan Kinerja Akurasi Prediksi Penyakit Diabetes Mellitus Menggunakan Metode Grid Seacrh pada Algoritma Logistic Regression,” JEPIN (Jurnal Edukasi dan Penelit. Inform., vol. 6, no. 3, pp. 280–284, 2020.

Imamah and F. H. Rachman, “Twitter sentiment analysis of Covid-19 using term weighting TF-IDF and logistic regresion,” Proceeding - 6th Inf. Technol. Int. Semin. ITIS 2020, pp. 238–242, 2020, doi: 10.1109/ITIS50118.2020.9320958.

Imamah, U. L. Yuhana, A. Djunaidy, and M. H. Purnomo, “Development of Text Classification Based on Difficulty Level in Adaptive Learning System using Convolutional Neural Network,” in International Electronics Symposium (IES), 2021, pp. 238–243.

A. Z. Arifin, Y. A. Sari, E. K. Ratnasari, and S. Mutrofin, “Emotion Detection of Tweets in Indonesian Language using Non-Negative Matrix Factorization,” Int. J. Intell. Syst. Appl., vol. 6, no. 9, pp. 54–61, 2014, doi: 10.5815/ijisa.2014.09.07.

S. Mutrofin, A. Mu’alif, R. V. H. Ginardi, and C. Fatichah, “Solution of class imbalance of k-nearest neighbor for data of new student admission selection,” Int. J. Artif. Intell. Res., vol. 3, no. 2, 2019, doi: 10.29099/ijair.v3i2.92.

S. Hadinisa, M Koyimatu, A Irawan, “Analisis Learning Rate pada Metode Transfer Learning untuk Sistem Pendeteksi Api,” Seminar Nasional Microwave, Antena dan Propagasi (SMAP) 2018 Unpak, 2018, pp. 8–11.

A. Handayani, A. Jamal, and A. A. Septiandri, “Evaluasi Tiga Jenis Algoritme Berbasis Pembelajaran Mesin untuk Klasifikasi Jenis Tumor Payudara,” vol. 6, no. 4, pp. 394–403, 2017.




DOI: http://dx.doi.org/10.26418/jp.v8i1.50506

Refbacks

  • There are currently no refbacks.