Evaluasi Model Machine learning untuk Prediksi Keparahan Kanker Berdasarkan Data Real-world Global
DOI:
https://doi.org/10.53863/kst.v7i02.1940Kata Kunci:
kanker, pembelajaran mesin, regresi logistik, k-nearest neighbors (K-NN), support vector machine (SVM), klasifikasi keparahanAbstrak
Kanker merupakan salah satu penyebab utama kematian di dunia dan menimbulkan beban yang besar bagi sistem kesehatan. Informasi mengenai tingkat keparahan kanker sangat penting untuk mendukung penentuan prioritas penanganan dan perencanaan sumber daya. Penelitian ini bertujuan membangun dan membandingkan model klasifikasi tingkat keparahan kanker berbasis pembelajaran mesin menggunakan data pasien kanker global periode 2015–2024. Dataset terdiri dari 50.000 pasien dengan berbagai atribut demografis, gaya hidup, lingkungan, klinis, serta skor keparahan (Target Severity Score). Dataset yang digunakan dalam penelitian ini berasal dari platform data terbuka Kaggle (www.kaggle.com) yang memuat data pasien kanker global periode 2015–2024. Skor keparahan dikonversi menjadi variabel biner dengan dua kelas, yaitu keparahan rendah dan tinggi. Tahapan penelitian meliputi pra-proses data (pembersihan, transformasi variabel kategorikal dengan one-hot encoding, standardisasi), pembagian data menjadi data latih dan data uji dengan proporsi 80:20 secara stratified, serta pembangunan tiga model klasifikasi, yaitu Logistic Regression, K-Nearest Neighbors (K-NN), dan Support Vector Machine (SVM) dengan kernel RBF. Kinerja model dievaluasi menggunakan akurasi, presisi, recall, F1-score, dan confusion matrix, serta divalidasi dengan 5-fold cross validation. Hasil percobaan menunjukkan bahwa Logistic regression menghasilkan akurasi 99,82%, presisi 99,86%, recall 99,78%, dan F1-score 99,82%, dengan kesalahan klasifikasi yang sangat kecil. SVM memperoleh akurasi 98,22% dengan kinerja yang juga tinggi, sedangkan K-NN hanya mencapai akurasi sekitar 79,42%. Hasil validasi silang mengonfirmasi bahwa Logistic regression memiliki rata-rata akurasi tertinggi dan paling stabil. Dengan demikian, Logistic regression direkomendasikan sebagai model utama untuk prediksi tingkat keparahan kanker pada dataset ini dan berpotensi dikembangkan lebih lanjut sebagai komponen sistem pendukung keputusan klinis
Referensi
Adiningrum, N. T. R., Rianti, R., & Priyanto, C. (2023). Rancang bangun aplikasi prediksi kanker payudara dengan pendekatan machine learning. Jurnal Informatika dan Teknik Elektro Terapan, 11(3s1). https://doi.org/10.23960/jitet.v11i3s1.3351
Cahyana, C. W., & Nurlayli, A. (2023). Analisis performa logistic regression, naïve Bayes, dan random forest sebagai algoritma pendeteksi kanker payudara. INSERT: Information System and Emerging Technology Journal, 4(1), 51–64. https://doi.org/10.23887/insert.v4i1.62362
Chazar, C., & Widhiaputra, B. E. (2020). Machine learning diagnosis kanker payudara menggunakan algoritma Support Vector Machine. INFORMASI (Jurnal Informatika dan Sistem Informasi), 12(1), 67–80. https://doi.org/10.37424/informasi.v12i1.48
Desiani, A., Zayanti, D. A., Ramayanti, I., Ramadhan, F. F., & Giovillando. (2025). Perbandingan algoritma Support Vector Machine (SVM) dan Logistic regression dalam klasifikasi kanker payudara. Jurnal Kecerdasan Buatan dan Teknologi Informasi, 4(1), 33–42. https://doi.org/10.69916/jkbti.v4i1.191
Hero, S. K. (2021). Faktor resiko kanker payudara. Jurnal Medika Hutama, 3(1), 1533–1537.
Juliani, D. (2024). Implementasi machine learning untuk klasifikasi penyakit kanker paru menggunakan metode naïve Bayes dengan tambahan fitur chatbot. Jurnal Ilmu Pengetahuan dan Teknologi (IPTEK), 8(2). https://doi.org/10.31543/jii.v8i2.351
Kusumawaty, J., Noviati, E., Sukmawati, I., Srinayanti, Y., & Rahayu, Y. (2021). Efektivitas edukasi SADARI (pemeriksaan payudara sendiri) untuk deteksi dini kanker payudara. ABDIMAS: Jurnal Pengabdian Masyarakat, 4(1), 496–501.
Maulani, R. N., & Fatah, Z. (2025). Klasifikasi data kanker payudara menggunakan algoritma Decision Tree berbasis RapidMiner. JAMASTIKA: Jurnal Mahasiswa Teknik Informatika, 4(2). https://doi.org/10.35473/jamastika.v4i2.4504
Marfianti, E. (2021). Peningkatan pengetahuan kanker payudara dan keterampilan periksa payudara sendiri (SADARI) untuk deteksi dini kanker payudara di Semutan Jatimulyo Dlingo. Jurnal Abdimas Madani dan Lestari (JAMALI), 3(1), 25–31. https://doi.org/10.20885/jamali.vol3.iss1.art4
Mubarog, I., Setyanto, A., & Sismoro, H. (2019). Sistem klasifikasi pada penyakit breast cancer dengan menggunakan metode naïve Bayes. Creative Information Technology Journal, 6(2), 109–118.
Nurnawati, E. K. (2022). Penerapan algoritma Decision Tree untuk memprediksi kanker payudara menggunakan data mining dan machine learning. Jurnal Dinamika Informatika, 11(2), 103–112.
Oktafiani, R., Hermawan, A., & Avianto, D. (2023). Pengaruh komposisi split data terhadap performa klasifikasi penyakit kanker payudara menggunakan algoritma machine learning. Jurnal Sains dan Informasi, 9(1), 19–28. https://doi.org/10.34128/jsi.v9i1.622
Septiany, E. S., Handayani, H. H., Al Mudzakir, T., & Masruriyah, A. F. N. (2024). Optimasi metode Support Vector Machine menggunakan seleksi fitur recursive feature elimination dan forward selection untuk klasifikasi kanker payudara. TIN: Terapan Informatika Nusantara, 5(2), 144–154.
Wardhana, A., Yuliana, T., & Putri, M. (2023). Penerapan algoritma C4.5 untuk prediksi diagnosis kanker payudara. Jurnal Sains Komputer dan Informatika, 9(1), 78–87.
Warnilah, A. I., Sutisna, H., Ratningsih, R., Christian, V., & Maharani, R. (2024). Implementasi machine learning untuk prediksi kanker payudara menggunakan model regresi logistik. EVOLUSI: Jurnal Sains dan Manajemen, 12(2), 76–84. https://doi.org/10.31294/evolusi.v12i2.23315
Cruz, J. A., & Wishart, D. S. (2006). Applications of machine learning in cancer prediction and prognosis. Cancer Informatics, 2, 59–77. https://doi.org/10.1177/117693510600200030
Delen, D., Walker, G., & Kadam, A. (2005). Predicting breast cancer survivability: A comparison of three data mining methods. Artificial Intelligence in Medicine, 34(2), 113–127. https://doi.org/10.1016/j.artmed.2004.07.002
Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., & Thrun, S. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115–118. https://doi.org/10.1038/nature21056
Kourou, K., Exarchos, T. P., Exarchos, K. P., Karamouzis, M. V., & Fotiadis, D. I. (2015). Machine learning applications in cancer prognosis and prediction. Computational and Structural Biotechnology Journal, 13, 8–17. https://doi.org/10.1016/j.csbj.2014.11.005
Panda, N. R., Pati, J. K., Mohanty, J. N., & Bhuyan, R. (2022). A review on Logistic regression in medical research. National Journal of Community Medicine, 13(4), 265–270. https://doi.org/10.55489/njcm.134202222
Kaggle. (2024). Global cancer patients 2015–2024 (global_cancer_patients_2015_2024.csv) [Data set]. Kaggle. https://www.kaggle.com/
Unduhan
Diterbitkan
Cara Mengutip
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2025 Sudriyanto Sudriyanto, Abdul Fatah, Moh Dafa Wahna Putra

Artikel ini berlisensiCreative Commons Attribution-ShareAlike 4.0 International License.
Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under a Creative Commons Attribution-ShareAlike 4.0 International License that allows others to share the work with an acknowledgment of the work’s authorship and initial publication in this journal
















