Evaluasi Model Machine learning untuk Prediksi Keparahan Kanker Berdasarkan Data Real-world Global

Penulis

  • Sudriyanto Sudriyanto Universitas Nurul Jadid, Probolinggo, Indonesia
  • Abdul Fatah Universitas Nurul Jadid, Probolinggo, Indonesia
  • Moh Dafa Wahna Putra Universitas Nurul Jadid, Probolinggo, Indonesia

DOI:

https://doi.org/10.53863/kst.v7i02.1940

Kata Kunci:

kanker, pembelajaran mesin, regresi logistik, k-nearest neighbors (K-NN), support vector machine (SVM), klasifikasi keparahan

Abstrak

Kanker merupakan salah satu penyebab utama kematian di dunia dan menimbulkan beban yang besar bagi sistem kesehatan. Informasi mengenai tingkat keparahan kanker sangat penting untuk mendukung penentuan prioritas penanganan dan perencanaan sumber daya. Penelitian ini bertujuan membangun dan membandingkan model klasifikasi tingkat keparahan kanker berbasis pembelajaran mesin menggunakan data pasien kanker global periode 2015–2024. Dataset terdiri dari 50.000 pasien dengan berbagai atribut demografis, gaya hidup, lingkungan, klinis, serta skor keparahan (Target Severity Score). Dataset yang digunakan dalam penelitian ini berasal dari platform data terbuka Kaggle (www.kaggle.com) yang memuat data pasien kanker global periode 2015–2024. Skor keparahan dikonversi menjadi variabel biner dengan dua kelas, yaitu keparahan rendah dan tinggi. Tahapan penelitian meliputi pra-proses data (pembersihan, transformasi variabel kategorikal dengan one-hot encoding, standardisasi), pembagian data menjadi data latih dan data uji dengan proporsi 80:20 secara stratified, serta pembangunan tiga model klasifikasi, yaitu Logistic Regression, K-Nearest Neighbors (K-NN), dan Support Vector Machine (SVM) dengan kernel RBF. Kinerja model dievaluasi menggunakan akurasi, presisi, recall, F1-score, dan confusion matrix, serta divalidasi dengan 5-fold cross validation. Hasil percobaan menunjukkan bahwa Logistic regression menghasilkan akurasi 99,82%, presisi 99,86%, recall 99,78%, dan F1-score 99,82%, dengan kesalahan klasifikasi yang sangat kecil. SVM memperoleh akurasi 98,22% dengan kinerja yang juga tinggi, sedangkan K-NN hanya mencapai akurasi sekitar 79,42%. Hasil validasi silang mengonfirmasi bahwa Logistic regression memiliki rata-rata akurasi tertinggi dan paling stabil. Dengan demikian, Logistic regression direkomendasikan sebagai model utama untuk prediksi tingkat keparahan kanker pada dataset ini dan berpotensi dikembangkan lebih lanjut sebagai komponen sistem pendukung keputusan klinis

Referensi

Adiningrum, N. T. R., Rianti, R., & Priyanto, C. (2023). Rancang bangun aplikasi prediksi kanker payudara dengan pendekatan machine learning. Jurnal Informatika dan Teknik Elektro Terapan, 11(3s1). https://doi.org/10.23960/jitet.v11i3s1.3351

Cahyana, C. W., & Nurlayli, A. (2023). Analisis performa logistic regression, naïve Bayes, dan random forest sebagai algoritma pendeteksi kanker payudara. INSERT: Information System and Emerging Technology Journal, 4(1), 51–64. https://doi.org/10.23887/insert.v4i1.62362

Chazar, C., & Widhiaputra, B. E. (2020). Machine learning diagnosis kanker payudara menggunakan algoritma Support Vector Machine. INFORMASI (Jurnal Informatika dan Sistem Informasi), 12(1), 67–80. https://doi.org/10.37424/informasi.v12i1.48

Desiani, A., Zayanti, D. A., Ramayanti, I., Ramadhan, F. F., & Giovillando. (2025). Perbandingan algoritma Support Vector Machine (SVM) dan Logistic regression dalam klasifikasi kanker payudara. Jurnal Kecerdasan Buatan dan Teknologi Informasi, 4(1), 33–42. https://doi.org/10.69916/jkbti.v4i1.191

Hero, S. K. (2021). Faktor resiko kanker payudara. Jurnal Medika Hutama, 3(1), 1533–1537.

Juliani, D. (2024). Implementasi machine learning untuk klasifikasi penyakit kanker paru menggunakan metode naïve Bayes dengan tambahan fitur chatbot. Jurnal Ilmu Pengetahuan dan Teknologi (IPTEK), 8(2). https://doi.org/10.31543/jii.v8i2.351

Kusumawaty, J., Noviati, E., Sukmawati, I., Srinayanti, Y., & Rahayu, Y. (2021). Efektivitas edukasi SADARI (pemeriksaan payudara sendiri) untuk deteksi dini kanker payudara. ABDIMAS: Jurnal Pengabdian Masyarakat, 4(1), 496–501.

Maulani, R. N., & Fatah, Z. (2025). Klasifikasi data kanker payudara menggunakan algoritma Decision Tree berbasis RapidMiner. JAMASTIKA: Jurnal Mahasiswa Teknik Informatika, 4(2). https://doi.org/10.35473/jamastika.v4i2.4504

Marfianti, E. (2021). Peningkatan pengetahuan kanker payudara dan keterampilan periksa payudara sendiri (SADARI) untuk deteksi dini kanker payudara di Semutan Jatimulyo Dlingo. Jurnal Abdimas Madani dan Lestari (JAMALI), 3(1), 25–31. https://doi.org/10.20885/jamali.vol3.iss1.art4

Mubarog, I., Setyanto, A., & Sismoro, H. (2019). Sistem klasifikasi pada penyakit breast cancer dengan menggunakan metode naïve Bayes. Creative Information Technology Journal, 6(2), 109–118.

Nurnawati, E. K. (2022). Penerapan algoritma Decision Tree untuk memprediksi kanker payudara menggunakan data mining dan machine learning. Jurnal Dinamika Informatika, 11(2), 103–112.

Oktafiani, R., Hermawan, A., & Avianto, D. (2023). Pengaruh komposisi split data terhadap performa klasifikasi penyakit kanker payudara menggunakan algoritma machine learning. Jurnal Sains dan Informasi, 9(1), 19–28. https://doi.org/10.34128/jsi.v9i1.622

Septiany, E. S., Handayani, H. H., Al Mudzakir, T., & Masruriyah, A. F. N. (2024). Optimasi metode Support Vector Machine menggunakan seleksi fitur recursive feature elimination dan forward selection untuk klasifikasi kanker payudara. TIN: Terapan Informatika Nusantara, 5(2), 144–154.

Wardhana, A., Yuliana, T., & Putri, M. (2023). Penerapan algoritma C4.5 untuk prediksi diagnosis kanker payudara. Jurnal Sains Komputer dan Informatika, 9(1), 78–87.

Warnilah, A. I., Sutisna, H., Ratningsih, R., Christian, V., & Maharani, R. (2024). Implementasi machine learning untuk prediksi kanker payudara menggunakan model regresi logistik. EVOLUSI: Jurnal Sains dan Manajemen, 12(2), 76–84. https://doi.org/10.31294/evolusi.v12i2.23315

Cruz, J. A., & Wishart, D. S. (2006). Applications of machine learning in cancer prediction and prognosis. Cancer Informatics, 2, 59–77. https://doi.org/10.1177/117693510600200030

Delen, D., Walker, G., & Kadam, A. (2005). Predicting breast cancer survivability: A comparison of three data mining methods. Artificial Intelligence in Medicine, 34(2), 113–127. https://doi.org/10.1016/j.artmed.2004.07.002

Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., & Thrun, S. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115–118. https://doi.org/10.1038/nature21056

Kourou, K., Exarchos, T. P., Exarchos, K. P., Karamouzis, M. V., & Fotiadis, D. I. (2015). Machine learning applications in cancer prognosis and prediction. Computational and Structural Biotechnology Journal, 13, 8–17. https://doi.org/10.1016/j.csbj.2014.11.005

Panda, N. R., Pati, J. K., Mohanty, J. N., & Bhuyan, R. (2022). A review on Logistic regression in medical research. National Journal of Community Medicine, 13(4), 265–270. https://doi.org/10.55489/njcm.134202222

Kaggle. (2024). Global cancer patients 2015–2024 (global_cancer_patients_2015_2024.csv) [Data set]. Kaggle. https://www.kaggle.com/

Unduhan

Diterbitkan

2025-12-17

Cara Mengutip

Sudriyanto, S., Fatah, A., & Putra, M. D. W. (2025). Evaluasi Model Machine learning untuk Prediksi Keparahan Kanker Berdasarkan Data Real-world Global. Jurnal Kridatama Sains Dan Teknologi, 7(02), 922–935. https://doi.org/10.53863/kst.v7i02.1940

Artikel Serupa

1 2 3 4 5 6 7 8 9 10 > >> 

Anda juga bisa Mulai pencarian similarity tingkat lanjut untuk artikel ini.