Implementasi Data Mining Dalam Melakukan Prediksi Penyakit Diabetes Menggunakan Metode Random Forest Dan Xgboost
:
https://doi.org/10.32409/jikstik.23.1.3507Keywords:
Data Mining, prediksi penyakit diabetes, Random Forest, XGBoost, evaluasi model, kaggleAbstract
Penyakit diabetes telah menjadi isu global dalam bidang kesehatan. Penelitian ini berfokus pada implementasi dua teknik data mining yaitu Random Forest dan XGBoost untuk memproyeksikan perkembangan penyakit diabetes. Kedua metode ini memanfaatkan dataset klinis dan biokimia yang terkait dengan diabetes. Setelah fase preprocessing, dilakukan evaluasi performa menggunakan metrik evaluasi seperti akurasi, presisi, recall dan f1 score. Dataset yang digunakan sebanyak 768 entri dan 9 indikator yang diperoleh dari platform Kaggle. Dalam Penelitian ini data diolah melalui tahap preprocessing diantaranya handling missing value, handling outlier dan normalisasi data, dan didapatkan data yang akan diolah sebesar 688. Setelah didapat data hasil preprocessing, dilakukan tahapan pelatihan dan pengujian dengan Cross Validation dan dilakukan pengujian untuk mengetahui parameter-parameter terbaik yang akan digunakan, lalu dilakukan evaluasi kinerja model Random Forest dan XGBoost menggunakan metrik akurasi, presisi, recall, dan F1-score. Hasil evaluasi model menunjukkan performa yang baik dalam penelitian ini, didapatkan hasil akurasi keseluruhan dalam penggunaan random forest sebesar 74% dan penggunaan XGBoost sebesar 76%.Penyakit diabetes telah menjadi isu global dalam bidang kesehatan. Penelitian ini berfokus pada implementasi dua teknik data mining yaitu Random Forest dan XGBoost untuk memproyeksikan perkembangan penyakit diabetes. Kedua metode ini memanfaatkan dataset klinis dan biokimia yang terkait dengan diabetes. Setelah fase preprocessing, dilakukan evaluasi performa menggunakan metrik evaluasi seperti akurasi, presisi, recall dan f1 score. Dataset yang digunakan sebanyak 768 entri dan 9 indikator yang diperoleh dari platform Kaggle. Dalam Penelitian ini data diolah melalui tahap preprocessing diantaranya handling missing value, handling outlier dan normalisasi data, dan didapatkan data yang akan diolah sebesar 688. Setelah didapat data hasil preprocessing, dilakukan tahapan pelatihan dan pengujian dengan Cross Validation dan dilakukan pengujian untuk mengetahui parameter-parameter terbaik yang akan digunakan, lalu dilakukan evaluasi kinerja model Random Forest dan XGBoost menggunakan metrik akurasi, presisi, recall, dan F1-score. Hasil evaluasi model menunjukkan performa yang baik dalam penelitian ini, didapatkan hasil akurasi keseluruhan dalam penggunaan random forest sebesar 74% dan penggunaan XGBoost sebesar 76%.Downloads
References
T. Hidayat, S. S. Anelia, R. I. Pratiwi, N. Salsabila, and D. S. Prasvita, “Perbandingan Akurasi Klasifikasi Penyakit Diabetes Menggunakan Algoritma Adaboost- Random Forest Dan Adaboost- Decision Tree Dengan Imputasi Median Dan Knn,” Semin. Nas. Mhs. Ilmu Komput. dan Apl., no. April, pp. 616–623, 2020.
G. Abdurrahman, H. Oktavianto, and M. Sintawati, “Optimasi Algoritma XGBoost Classifier Menggunakan Hyperparameter Gridesearch dan Random Search Pada Klasifikasi Penyakit Diabetes,” INFORMAL Informatics J., vol. 7, no. 3, p. 193, 2022, doi: 10.19184/isj.v7i3.35441.
A. Fauzi and A. H. Yunial, “JEPIN (Jurnal Edukasi dan Penelitian Informatika) Optimasi Algoritma Klasifikasi Naive Bayes, Decision Tree, K-Nearest Neighbor, dan Random Forest menggunakan Algoritma Particle Swarm Optimization pada Diabetes Dataset,” J. Edukasi dan Penelit. Inform., vol. 8, no. 3, pp. 470–481, 2022.
F. ANISHA, Dodi Vionanda, Nonong amalita, and Zilrahmi, “Application of Random Forest for The Classification Diabetes Mellitus Disease in RSUP Dr. M. Jamil Padang,” UNP J. Stat. Data Sci., vol. 1, no. 2, pp. 45–52, 2023, doi: 10.24036/ujsds/vol1-iss2/30.
N. N. Pandika Pinata, I. M. Sukarsa, and N. K. Dwi Rusjayanthi, “Prediksi Kecelakaan Lalu Lintas di Bali dengan XGBoost pada Python,” J. Ilm. Merpati (Menara Penelit. Akad. Teknol. Informasi), vol. 8, no. 3, p. 188, 2020, doi: 10.24843/jim.2020.v08.i03.p04.
Gde Agung Brahmana Suryanegara, Adiwijaya, and Mahendra Dwifebri Purbolaksono, “Peningkatan Hasil Klasifikasi pada Algoritma Random Forest untuk Deteksi Pasien Penderita Diabetes Menggunakan Metode Normalisasi,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 5, no. 1, pp. 114–122, 2021, doi: 10.29207/resti.v5i1.2880.
S. D. M. I. Gunawan Ichsan Muhammad, “JEPIN (Jurnal Edukasi dan Penelitian Informatika) Peningkatan Kinerja Akurasi Prediksi Penyakit Diabetes Mellitus Menggunakan Metode Grid Seacrh pada Algoritma Logistic Regression,” J. Edukasi dan Penelit. Inform., vol. 6, no. 3, pp. 280–284, 2020.
B. A. Candra Permana and I. K. Dewi Patwari, “Komparasi Metode Klasifikasi Data Mining Decision Tree dan Naïve Bayes Untuk Prediksi Penyakit Diabetes,” Infotek J. Inform. dan Teknol., vol. 4, no. 1, pp. 63–69, 2021, doi: 10.29408/jit.v4i1.2994.
H. S. W. Hovi, A. Id Hadiana, and F. Rakhmat Umbara, “Prediksi Penyakit Diabetes Menggunakan Algoritma Support Vector Machine (SVM),” Informatics Digit. Expert, vol. 4, no. 1, pp. 40–45, 2022, doi: 10.36423/index.v4i1.895.
M. Syukri Mustafa and I. Wayan Simpen, “Implementation of the K-Nearest Neighbor (KNN) Algorithm to Predict Patients Affected by Diabetes at the Manyampa Health Center, Bulukumba Regency,” Pros. Semin. Ilm. Sist. Indormasi dan Teknol. Inf., vol. VIII, no. 1, pp. 1–10, 2019.
S. Ucha Putri, E. Irawan, F. Rizky, S. Tunas Bangsa, P. A. -Indonesia Jln Sudirman Blok No, and S. Utara, “Implementasi Data Mining Untuk Prediksi Penyakit Diabetes Dengan Algoritma C4.5,” Januari, vol. 2, no. 1, pp. 39–46, 2021.
E. C. P. Witjaksana, R. R. Saedudin, and V. P. Widartha, “Perbandingan Akurasi Algoritma Random Forest dan Algoritma Artificial Neural Network untuk Klasifikasi Penyakit Diabetes,” e-Proceeding Eng., vol. 8, no. 5, pp. 9765–9772, 2021.
M. D. Purbolaksono, M. Irvan Tantowi, A. Imam Hidayat, and A. Adiwijaya, “Perbandingan Support Vector Machine dan Modified Balanced Random Forest dalam Deteksi Pasien Penyakit Diabetes,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 5, no. 2, pp. 393–399, 2021, doi: 10.29207/resti.v5i2.3008.
Z. Munawar, N. I. Putri, and D. Z. Musadad, “Meningkatkan Rekomendasi Menggunakan Algoritma Perbedaan Topik,” J. Sist. Inf., vol. 01, no. 02, pp. 17–26, 2020.
A. E. Pramadhani and T. Setiadi, “Penerapan Data Mining untuk Klasifikasi Penyakit ISPA dengan Algoritma Desicion Tree,” J. Sarj. Tek. Inform. e-ISSN 2338-5197, vol. 2, no. 1, pp. 831–839, 2014.
N. Chamidah, W. Jurusan Teknik Informatika, U. Salamah, and K. Kunci Backpropagasi, “Pengaruh Normalisasi Data pada Jaringan Syaraf Tiruan Backpropagasi Gradient Descent Adaptive Gain (BPGDAG) untuk Klasifikasi,” J. Itsmart, vol. 1, no. 1, pp. 28–33, 2012.
W. Apriliah, I. Kurniawan, M. Baydhowi, and T. Haryati, “SISTEMASI: Jurnal Sistem Informasi Prediksi Kemungkinan Diabetes pada Tahap Awal Menggunakan Algoritma Klasifikasi Random Forest,” J. Sist. Inf., vol. 10, no. 1, pp. 163–171, 2021, [Online]. Available: http://sistemasi.ftik.unisi.ac.id.
R. Bonetto and V. Latzko, “Machine learning,” Comput. Commun. Networks From Theory to Pract., pp. 135–167, 2020, doi: 10.1016/B978-0-12-820488-7.00021-9.
N. L. Rachmawati and M. Lentari, “Penerapan Metode Min-Max untuk Minimasi Stockout dan Overstock Persediaan Bahan Baku,” J. INTECH Tek. Ind. Univ. Serang Raya, vol. 8, no. 2, pp. 143–148, 2022, doi: 10.30656/intech.v8i2.4735.
H. Azis, P. Purnawansyah, F. Fattah, and I. P. Putri, “Performa Klasifikasi K-NN dan Cross Validation Pada Data Pasien Pengidap Penyakit Jantung,” Ilk. J. Ilm., vol. 12, no. 2, pp. 81–86, 2020, doi: 10.33096/ilkom.v12i2.507.81-86.
S. Kasus, K. Data, E. Gen, and S. Muscle, “Implementasi Metode Svm , Mlp Dan Xgboost,” 2020.