Comparative Analysis of Random Forest and XGBoost for Detecting Phishing Websites: A Machine Learning Approach
DOI:
https://doi.org/10.53863/kst.v7i02.1933Kata Kunci:
Deteksi Phishing, Machine Learning, Random Forest, XGBoost, Keamanan SiberAbstrak
Serangan phishing merupakan salah satu ancaman keamanan siber yang signifikan di era digital dengan lebih dari 300.000 keluhan dilaporkan secara global pada tahun 2023. Di Indonesia, Badan Siber dan Sandi Negara melaporkan trafik anomali terkait phishing mencapai 47.231.390 insiden pada tahun 2023, menjadikannya salah satu ancaman terbesar terhadap ekosistem digital nasional. Kompleksitas serangan phishing modern yang semakin canggih membutuhkan pendekatan deteksi otomatis berbasis machine learning untuk mengatasi keterbatasan metode deteksi manual yang kurang efektif. Penelitian ini menyajikan analisis komparatif algoritma Random Forest dan XGBoost untuk deteksi website phishing otomatis menggunakan teknik machine learning. Meskipun kedua algoritma telah terbukti efektif dalam domain keamanan siber, perbandingan komprehensif yang mempertimbangkan aspek performa, interpretabilitas, dan efisiensi komputasi dalam konteks deteksi phishing masih terbatas, menciptakan gap penelitian yang perlu diisi untuk mengoptimalkan sistem deteksi phishing nasional. Metodologi penelitian mencakup pengumpulan data, preprocessing, implementasi model, optimisasi hyperparameter menggunakan randomized search dengan 5-fold stratified cross-validation dan analisis komparatif. Hasil eksperimen menunjukkan XGBoost teroptimasi memberikan performa terbaik dengan akurasi 97,78% dan waktu training 73% lebih cepat, sementara Random Forest menawarkan keunggulan interpretabilitas dengan akurasi 97,65%. Analisis feature importance mengungkapkan status sertifikat SSL dan karakteristik anchor URL sebagai fitur diskriminatif paling kritis. Penelitian ini menyimpulkan bahwa XGBoost teroptimasi menjadi pilihan yang lebih optimal untuk deployment production sistem deteksi phishing real-time, sementara Random Forest lebih sesuai untuk skenario yang memerlukan transparansi model. Temuan ini memberikan kontribusi untuk pengembangan sistem deteksi phishing nasional yang mendukung program digitalisasi pemerintah Indonesia dan melindungi masyarakat dari ancaman keamanan siber yang terus meningkat
Referensi
Abdeljaber, F., Mohammad, R. M., Thabtah, F., & McCluskey, L. (2014). Predicting phishing websites based on self-structuring neural network. Neural Computing and Applications, 25(2).
Abdul Samad, S. R., Balasubramanian, S., Al-Kaabi, A. S., Sharma, B., Chowdhury, S., Mehbodniya, A., Webber, J. L., & Bostani, A. (2023). Analysis of the performance impact of fine-tuned machine learning model for phishing URL detection. Electronics, 12(7). https://doi.org/10.3390/electronics12071642
Amora, E. N. O., Agoylo, J. C., Olaybar, J. A., Munasque, J. C., & Cerna, P. D. (2025). AI-driven real-time severity prediction for cyber attacks using machine learning. In Proceedings of the 3rd International Conference on Self Sustainable Artificial Intelligence Systems (ICSSAS 2025) (pp. 1467–1472). https://doi.org/10.1109/ICSSAS66150.2025.11081230
Badan Siber dan Sandi Negara. (2024). Lanskap keamanan siber Indonesia 2023. https://www.bssn.go.id/
Dutta, A. K. (2021). Detecting phishing websites using machine learning technique. PLOS ONE, 16(10), e0258361. https://doi.org/10.1371/journal.pone.0258361
Fang, X., & Liu, M. (2024). How does the digital transformation drive digital technology innovation of enterprises? Evidence from enterprise digital patents. Technological Forecasting and Social Change, 204, 123428. https://doi.org/10.1016/j.techfore.2024.123428
Federal Bureau of Investigation. (2023). 2022 Internet crime report. https://www.ic3.gov/Media/PDF/AnnualReport/2022_IC3Report.pdf
Kementerian Komunikasi dan Digital Republik Indonesia. (2023). Memenuhi layanan digital hingga pelosok. https://www.komdigi.go.id/berita/artikel/detail/memenuhi-layanan-digital-hingga-pelosok
Marchal, S., François, J., State, R., & Engel, T. (n.d.). PhishStorm: Detecting phishing with streaming analytics. http://www.quadrodeofertas.com.br/www1.paypal-com/encripted/ssl218
Ovi, S., Rahman, M., & Hossain, M. (2024). PhishGuard: A multi-layered ensemble model for optimal phishing website detection. Proceedings of the International Conference on Smart Technologies and Innovations. https://doi.org/10.1109/STI64222.2024.10951075
Rajalim, S. (2025). Understanding human vulnerabilities: A study on social engineering techniques in cybersecurity. International Journal for Research in Applied Science and Engineering Technology, 13(6), 1660–1666. https://doi.org/10.22214/ijraset.2025.72502
Safi, A., & Singh, S. (2023). A systematic literature review on phishing website detection techniques. Journal of King Saud University – Computer and Information Sciences, 35(2), 590–611. https://doi.org/10.1016/j.jksuci.2023.01.004
Sahingoz, O. K., Buber, E., Demir, O., & Diri, B. (2019). Machine learning based phishing detection from URLs. Expert Systems with Applications, 117, 345–357. https://doi.org/10.1016/j.eswa.2018.09.029
Wu, C.-Y., Kuo, C.-C., & Yang, C.-S. (2023). Phishing detection with browser extension based on machine learning. Proceedings of the Asia Joint Conference on Information Security. https://doi.org/10.1109/AsiaJCIS60284.2023.00023
Unduhan
Diterbitkan
Cara Mengutip
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2025 Yogi Perdana

Artikel ini berlisensiCreative Commons Attribution-ShareAlike 4.0 International License.
Authors retain copyright and grant the journal right of first publication with the work simultaneously licensed under a Creative Commons Attribution-ShareAlike 4.0 International License that allows others to share the work with an acknowledgment of the work’s authorship and initial publication in this journal
















