Reduksi Atribut Menggunakan Information Gain untuk Optimasi Cluster Algoritma K-Means
Abstract
Proses clustering dengan algoritma K-Means pada dataset yang memiliki banyak atribut akan mempengaruhi besarnya jumlah iterasi. Pada penelitian ini, metode Information Gain digunakan untuk mereduksi atribut dataset. Dataset yang telah direduksi atribut akan dilanjutkan proses clustering dengan K-Means. Dataset yang dianalisis pada penelitian ini adalah data Hepatitis C Virus yang diperoleh dari UCI Machine Learning Repository, dengan 29 atribut dan 1385 jumlah data. Hasil penelitian ini menunjukkan bahwa rata-rata jumlah iterasi yang diperoleh dari 10 kali pengujian dengan menggunakan K-Means konvensional diperoleh rata-rata sebesar 32 iterasi, sedangkan K-Means dengan reduksi atribut diperoleh rata-rata sebesar 27.7 iterasi. Nilai validitas cluster dihitung menggunakan Davies-Bouldin Index (DBI). Nilai DBI pada K-Means konvensional sebesar 2.1972, sedangkan DBI pada K-Means yang telah direduksi 1 atribut sampai 5 atribut diperoleh nilai rata-rata DBI masing-masing sebesar 2.0290, 1.8771, 1.8641, 1.8389, dan 1.8117.
Keywords
Full Text:
PDFReferences
A. Singh, A. Yadav, A. Rana, “K-Means with Three different Distance Metrics”. IJCA, S, , Vol No 10, 2013.67,
N. Arunkumar, M. A. Mohammed, M. K .A Ghani, D. A. Ibrahim, “K-means clustering and neural network for object detecting and identifying abnormality of brain tumor”. Soft Computing, 2019, 23.19: 9083-9096.
A. Bates, J. Kalita, “Counting Clusters in Twitter Posts”, Proceedings of the 2nd International Conference on Information Technology for Competitive Strategies, 2016, pp, 85.
B. J. D. Sitompul, “Peningkatan Hasil Evaluasi Cluster Davies-Bouldin Index Dengan Penentuan Titik Pusat cluster awal Algoritma K-Means”, Universitas Sumatera Utara, 2018.
V. Chandani, R.S. Wahono, “Komparasi algoritma klasifikasi Machine Learning dan feature selection pada analisis sentimen review film”. Journal of Intelligent Systems, 2015, 1.1: 56-60.
M. Bora, D. Jyoti, D. Gupta, A. Kumar, “Effect of Different Distance Measures on the Performance of K-Means Algorithm: An Experimental Study in Matlab”, IJCBIT, Vol 5, No 2, 2014
E. Dabaghi, H. Kashanian, “Feature dimension reduction of multisensor data fusion using principal component fuzzy analysis”. International Journal of Engineering, 2017, 30.4: 493-499.
D. Abdullah, "Determining a Cluster Centroid of K-Means Clustering Using Genetic Algorithm", IJCSSE, 4(6), 2015,160-164
O. J. Oyelade, O. O. Oladipupo, I. C. Obagbuwa, “Application of K-Means Clustering Algorithm for Prediction of Students’s Academic Performance”, IJCSIS, Vol 7, No 1, 2010.
E. Prasetyo, "Reduksi Dimensi Set Data dengan DRC pada Metode Klasifikasi SVM dengan Upaya Penambahan Komponen Ketiga", Prosiding SNATIF, 2014, 293-300.
P. M. Shakeel, S. Baskar, V. R. S. Dhulipala, “Cloud based framework for diagnosis of diabetes mellitus using K-means clustering”, Health information science and systems, 2018, 6.1: 16.
T. Silwattananusarn, K. Tuamsuk, “Data Mining and Its Applications for Knowledge Management: A Literature Review from 2007 to 2012”, IJDKP, Vol 2, No 5, 2012.
U. R. Raval, C. Jani, “Implementing & Improvisation of K-means Clustering Algorithm”, IJCSMC, Vol 5, 191203, Issue 5, 2016.
Y. F. Waruwu, M. Zarlis, E. B. Nababan, “Seleksi Atribut Pada Algoritma Radial Basis Function Neural Network Menggunakan Information Gain”, Seminar Nasional Royal (SENAR), Vol. 1, No. 1, 2018, pp. 21-24.
Q. Zhan, “An Improved K-Means Algorithm Based on Structure Features”, Journal of Software, Vol 12, No 1, 2017.
DOI: http://dx.doi.org/10.26418/jp.v6i1.37606