PENDUGAAN DATA HILANG MENGGUNAKAN PERBANDINGAN IMPUTASI HOT-DECK DAN K-NEAREST NEIGHBOR

Indry Handayany, Dadan Kusnandar, Wirda Andani

Abstract


Data hilang digambarkan sebagai keadaan nilai observasi yang kosong atau tidak memiliki nilai sehingga mengakibatkan hilangnya informasi pada sebuah kasus. Data hilang disebabkan kemungkinan pengukuran kurang lengkap, pencarian informasi yang sulit ditemukan, kesalahan atau kelalaian dalam menjalankan prosedur pengumpulan data atau bahkan responden yang menolak untuk menjawab pertanyaan dalam suatu survei. Hal tersebut mengakibatkan berkurangnya informasi penting yang diakibatkan dari data hilang. Oleh karena itu, perlu dilakukan imputasi data hilang untuk penanganan data hilang. Metode imputasi dapat dibedakan menjadi dua jenis, yaitu metode imputasi berbasis statistik dan metode imputasi berbasis machine learning. Metode imputasi Hot-Deck merupakan metode terbaik dalam imputasi berbasis statistik, sedangkan imputasi K-Nearest Neighbor merupakan metode terbaik dalam imputasi berbasis machine learning. Penelitian ini bertujuan menerapkan dan membandingkan hasil akurasi metode imputasi Hot-Deck dan K-Nearest Neighbor pada pendugaan data hilang pada Dapodik SMA Kota/Kab Pontianak dan Kubu Raya tahun 2023. Simulasi data hilang menggunakan mekanisme Missing Completely At Random (MCAR) 5% pada masing-masing variabel. Nilai akurasi imputasi terbaik terdapat di imputasi K-Nearest Neighbor menggunakan parameter k=4 dengan nilai Root Mean Square Error (RMSE) sebesar 5,80 dan Mean Absolute Percentage Error (MAPE) sebesar 10,98%.

 

Kata Kunci: Dapodik, imputasi data, imputasi Hot-Deck, imputasi K-Nearest Neighbor


Full Text:

PDF


DOI: http://dx.doi.org/10.26418/bbimst.v12i4.68323

Refbacks

  • There are currently no refbacks.