Komparasi Algoritma C4.5, Naive bayes, K-Nearest Neighbor, Random Forest Untuk Prediksi Faktor Penyebab Penyakit Diabetes

Muhammad Alfian Fadillah, Evi Dewi Sri Mulyani, Ruuhwan Ruuhwan

Abstract


Diabetes adalah penyakit metabolik kronis yang ditandai dengan peningkatan kadar glukosa darah (gula darah), yang seiring waktu menyebabkan kerusakan serius pada jantung, pembuluh darah, mata, ginjal, dan saraf. Penyakit diabetes menjadi salah satu jenis penyakit yang mematikan di dunia. Pengklasifikasian secara tepat orang-orang yang memiliki hasil tes laboratorium apakah positif atau negatif memiliki penyakit diabetes penting dilakukan untuk memperoleh penanganan yang tepat. Penelitian ini dataset yang digunakan bersumber dari komunitas global pada studi kasus Electronic Health Record (EHRs). Data yang diperoleh sebanyak 10.000 record, memiliki delapan atribut dan satu atribut dengan status pasien sebagai label (kelas) yang menyatakan 859 data pasien yang menderita penyakit diabetes, 9141 data pasien yang tidak menderita penyakit diabetes. Tujuan dari penelitian ini adalah untuk mengkomparasikan algoritma C4.5, Naive bayes, K-Nearest Neighbor dan Random Forest dalam penentuan klasifikasi data pasien diabetes. Hasil penelitian ini dilakukan dengan membagi data pengujian dan data pelatihan dengan perbandingan 90 : 10, 80 : 20, dan 70 : 30. Hasil penelitian menunjukkan bahwa secara keseluruhan komparasi algoritma C4.5, Naive bayes, K-Nearest Neighbor dan Random Forest, dari percobaaan dengan pembagian data training : data testing 90 : 10, 80 : 20, 70 : 30. Jika dibandingkan dengan nilai akurasi algoritma Naïve Bayes dan K-Nearest Neighbor, nilai akurasi dengan menggunakan algoritma klasifikasi C4.5 dan Random Forest adalah yang terbesar pada percobaan data pelatihan 90% : pengujian data 10% dan percobaan data pelatihan 70% : pengujian data 30%. Sedangkan evaluasi menggunakan kurva ROC, Algoritma Random Forest menjadi yang tertinggi pada percobaan data training 70% : data testing 30% dan data training 80% : data testing 20% dengan nilai mendekati 1.000 yaitu 0.972 dan 0.970. Dari hasil keseluruhan pengujian model dapat disimpulkan bahwa kinerja C4.5 dan Random Forest hampir sama bagusnya, baik dilihat dari tingkat akurasi maupun AUC nya.

Keywords


Diabetes, Data Mining, C4.5, Naive Bayes, K-Nearest Neighbor, Random Forest

References


Alzubaidi, Abdulaziz A., Sami M. Halawani, and Mutasem Jarrah. 2023. “Towards a Stacking Ensemble Model for Predicting Diabetes Mellitus Using Combination of Machine Learning Techniques.” International Journal of Advanced Computer Science and Applications 14(12): 348–58.

Bramer, Max. 2016. Introduction to Data Mining.

Ha, Jiawei, Micheline Kambe, and Jian Pe. 2011. Data Mining: Concepts and Techniques Data Mining: Concepts and Techniques.

Hidayat, Muhammad Mahaputra. 2015. “Data Mining Data Mining.” Mining of Massive Datasets 2(January 2013): 5–20. https://www.cambridge.org/core/product/identifier/CBO9781139058452A007/type/book_part.

IBM. 2021. “Modeler CRISP-DM Guide.”

Jin, Ziwei et al. 2020. “RFRSF: Employee Turnover Prediction Based on Random Forests and Survival Analysis.” Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) 12343 LNCS: 503–15.

Layth, Mohammed, Zubairi Alkaragole, and Asst Sefer Kurnaz. 2019. “Comparison of Data Mining Techniques for Predicting Diabetes or Prediabetes by Risk Factors.” International Journal of Computer Science and Mobile Computing 8(3): 61–71. www.ijcsmc.com.

Mulyani, Evi Dewi Sri Mulyani et al. 2020. “Klasifikasi Penentuan Kelayakan Pemberian Kredit Menggunakan Metode Naive Bayes Classifier Classification of Determination of Credit Worthiness Using the Naive Bayes Classifier Method.” Jurnal VOI (Voice Of Informatics) 9(2): 81–92. https://voi.stmik-tasikmalaya.ac.id/index.php/voi/article/view/226.

Panda, Monalisa, Debani Prashad Mishra, Sopa Mousumi Patro, and Surender Reddy Salkuti. 2022. “Prediction of Diabetes Disease Using Machine Learning Algorithms.” IAES International Journal of Artificial Intelligence 11(1): 284–90.

Suherman, Nurisya Rahma, Ruuhwan Ruuhwan, and Aso Sudiarjo. 2023. “Implementation of Data Mining at Laboratory Vocational High School Using The C4.5 Algorithm to Predict Students Major Preferences.” Innovation in Research of Informatics (INNOVATICS) 5(2): 65–70.

Zhang, Shichao, Chengqi Zhang, and Qiang Yang. 2003. 17 Applied Artificial Intelligence Data Preparation for Data Mining.




DOI: https://doi.org/10.17509/ijdb.v4i1.68999

Refbacks

  • There are currently no refbacks.


Copyright (c) 2024 Universitas Pendidikan Indonesia (UPI)

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Author: Indonesian Journal of Digital Business is published by Universitas Pendidikan Indonesia (UPI)
View My Stats