PHÁT HIỆN URL PHISHING DỰA TRÊN MÔ HÌNH BERT

Vũ Xuân Hạnh , Đỗ Duy Trinh; Ngọ Văn Sơn , Nguyễn Anh Tuấn

doi:10.59266/houjs.2025.581

Authors

Vũ Xuân Hạnh , Đỗ Duy Trinh
Ngọ Văn Sơn , Nguyễn Anh Tuấn

DOI:

https://doi.org/10.59266/houjs.2025.581

Keywords:

URL Phishing, phát hiện URL Phishing, kiến trúc transformer, BERT, XGBoost, Machine Learning, Random Forest

Abstract

Trong bối cảnh các cuộc tấn công mạng ngày càng gia tăng và phức tạp, đặc biệt là các hình thức lừa đảo qua không gian mạng, việc phát triển các mô hình phát hiện tấn công là một nhu cầu cấp thiết. Bài báo này đề xuất phương pháp phát hiện URL Phishing dựa trên kiến trúc transformer, so sánh với phương pháp phát hiện dựa trên học máy có giám sát sử dụng đặc trưng. Nhóm tác giả đã trích xuất 36 đặc trưng chia thành hai nhóm chính: đặc trưng URL và đặc trưng Domain. Các thuật toán Random Forest, XGBoost, và mô hình BERT được huấn luyện, kiểm thử và đánh giá trên bộ dữ liệu đa dạng, bao gồm cả URL Phishing, URL Malware và Defacement. Kết quả cho thấy mô hình BERT đạt độ chính xác 99,05%, cùng tỷ lệ phát hiện cao 99,45% với độ ổn định, chứng minh tính hiệu quả của phương pháp dựa trên kiến trúc transformer.

References

[1]. Alabdan, R. (2020). Phishing Attacks Survey: Types, Vectors, and Technical Approaches. Future Internet, 12(10), 168. doi:doi: 10.3390/fi12100168

[2]. APWG. (2024). APWG Reports. (Phishing Activity Trends Report: 2024 Annual Report) Retrieved 2025, from https://docs.apwg.org/reports/apwg_ trends_report_q3_2024.pdf

[3]. Chiew, K. L., Yong, K. S., & Tan, C. L. (2018). A survey of phishing attacks: Their types, vectors and technical approaches. Expert Systems with Applications, 106, 1-20. doi:doi: 10.1016/j.eswa.2018.03.050

[4]. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proc. 2019 Conf. North Am. Chapter Assoc. Comput. Linguist. (NAACL-HLT), 4171-4186.

[5]. FBI. (2023). FBI IC3 Annual Report. (2023 Internet Crime Report) Retrieved 2025, from https://www.ic3.gov/Media/ PDF/AnnualReport/2023_IC3Report. pdf

[6]. Ghalechya, H., Israyelyan, E., Arakelyan, A., Hovhannisyan, G., & Davtyan, A. (2024). Phishing URL detection with neural networks: an empirical study. Scientific Reports, 14(25134). doi:DOI: 10.1038/s41598-024-74725-6

[7]. Opara, C., Chen, Y., & Wei, B. (2024). Look before you leap: Detecting phishing web pages by exploiting raw URL and HTML characteristics. Expert Systems with Applications, 236. doi:https://doi.org/10.1016/j. eswa.2023.121183

[8]. Remmide, M. A., Boumahdi, F., Boustia, N., Feknous, C. L., & Della, R. (2022). Detection of Phishing URLs Using Temporal Convolutional Network. Procedia Computer Science, 212(https://doi.org/10.1016/j. procs.2022.10.209), 74-82.

[9]. Sahoo, D., Liu, C., & Hoi, S. C. (2017). (Malicious URL Detection using Machine Learning: A Survey) Retrieved 2025, from https://arxiv.org/ abs/1701.07179

[10]. Sánchez-Paniagua, M., Fernandez, E. F., Alegre, E., Al-Nabki, W., & Gonzalez-Castro, V. (2022). Phishing URL Detection: A Real- Case Scenario Through Login URLs. IEEE Access, 10(DOI: 10.1109/ ACCESS.2022.3168681), 42949 - 42960.

[11]. Siddhartha, M. (2021). Kaggle. (Malicious URLs dataset) Retrieved 2025, from https://www.kaggle.com/ datasets/sid321axn/malicious-urls- dataset

[12]. Smith, B. (2024). Towards Data Science. (A Complete Guide to BERT with Code) Retrieved 2025, from https://towardsdatascience.com/a- complete-guide-to-bert-with-code- 9f87602e4a11/

[13]. Taha, M. A., Jabar, H. D., & Mohammed, W. K. (2024). A Machine Learning Algorithms for Detecting Phishing Websites: A Comparative Study. Iraqi Journal for Computer Science and Mathematics, 5(DOI: 10.52866/ijcsm.2024.05.03.015), 275-286.

[14]. Vũ, X. H., Trần, T. D., Đỗ, T. U., Hoàng, V. T., & Ngô, M. P. (2022). Phát hiện Email URL lừa đảo sử dụng học máy có giám sát. Tạp chí Khoa học - Trường Đại học Mở Hà Nội, 44-53. Retrieved from https://www.researchgate.net/ publication/368541645_PHAT_HIEN_ E MAIL _URL _L UA_DAO_SU_ DUNG_HOC_MAY_CO_GIAM_ SAT_DETECT_EMAIL_URLS_ PHISHING_USING_SUPERVISED_ MACHINE_LEARNING

[15]. Vũ, H. T. (2016). Phân nhóm các thuật toán Machine Learning. In Machine Learning. https:// m a c h i n e l e a r n i n g c o b a n . com/2016/12/27/categories/.