PERBANDINGAN IMPUTASI MISSING DATA MENGGUNAKAN METODE MEAN DAN METODE ALGORITMA K-MEANS

Mukarromah, Shantika Martha, Ilhamsyah

Abstract


Missing data adalah informasi yang hilang atau tidak tersedia untuk sebuah obyek. Missing data merupakan masalah yang sering dijumpai dalam penelitian, keberadaan missing data dapat mengganggu analisis yang akan dilakukan. Salah satu cara yang dapat dilakukan untuk menangani missing data adalah dengan mengisi missing data dengan nilai-nilai yang mungkin berdasarkan informasi yang tersedia pada data atau dikenal dengan imputasi. Mean dan Algoritma K-Means merupakan metode yang dapat digunakan untuk imputasi missing data. Imputasi dengan metode Mean mengisi missing data dengan rata-rata nilai yang diketahui pada suatu variabel, sedangkan imputasi dengan metode Algoritma K-Means mengisi missing data dengan centroid yang sesuai dengan letak missing data berada. Dalam penelitian ini, dibandingkan kedua metode imputasi tersebut, yaitu dengan membandingkan nilai MSE (Mean Square Error) yang diperoleh masing-masing metode. Semakin kecil nilai MSE maka semakin kecil kesalahan hasil imputasi. Dari pengujian imputasi yang telah dilakukan yaitu pada data yang mengandung 10%, 20% dan 30% missing data, didapat bahwa secara rata-rata imputasi missing data menggunakan metode Algoritma K-Means dengan 2 cluster, 3 cluster dan 4 cluster menunjukkan hasil yang lebih baik dibanding metode Mean.

Kata Kunci : missing data, imputasi, Algoritma K-Means


Full Text:

PDF

Refbacks

  • There are currently no refbacks.