ỨNG DỤNG PHƯƠNG PHÁP HỌC MÁY VỚI NGÔN NGỮ R TRONG DỰ ĐOÁN KẾT QUẢ HỌC TẬP

Authors

  • Đinh Tuấn Long , Trần Thị Kim Liên
  • Đỗ Thị Đoan, Nguyễn Thị Minh Thúy
  • Đinh Thái Dương

DOI:

https://doi.org/10.59266/houjs.2025.656

Keywords:

khai phá dữ liệu giáo dục, học máy trong R, dự đoán kết quả học tập, so sánh mô hình dự đoán, phân tích yếu tố học tập, SVM, Random Forest

Abstract

Nghiên cứu này ứng dụng các kỹ thuật khai phá dữ liệu giáo dục bằng ngôn ngữ R nhằm xây dựng và đánh giá mô hình dự đoán kết quả học tập. Ba mô hình - Linear Regression, Random Forest và SVM - được triển khai trên tập dữ liệu chuẩn hóa gồm 2.392 học sinh với 8 biến đầu vào. Linear Regression cho kết quả tốt nhất (R² = 0,9537; RMSE = 0,0494), vượt trội so với SVM và Random Forest. Phân tích hồi quy cho thấy hỗ trợ từ phụ huynh (β = 0,102), thời gian học (β = 0,14) và vắng mặt (β = -0,72) là các yếu tố ảnh hưởng mạnh đến GPA. Kết quả góp phần xây dựng khung phân tích toàn diện bằng R và cung cấp cơ sở dữ liệu thực nghiệm cho các chiến lược can thiệp giáo dục hiệu quả.

References

[1]. Al-Samarraie, H., Teng, B. K., Alzahrani, A. I., & Alalwan, N. (2019). E-learning continuance satisfaction in higher education: A unified perspective from instructors and students. Studies in Higher Education, 44(11), 2014-2032. https://doi.org/10.1080/03075079.2017.1298088.

[2]. Baker, R. S. (2010). Data mining for education. International Encyclopedia of Education, 7(3), 112-118. https:// doi.org/10.1016/B978-0-08-044894- 7.01318-X.

[3]. Baker, R. S., & Siemens, G. (2014). Educational data mining and learning analytics. In Cambridge Handbook of the Learning Sciences (pp. 253-272). Cambridge University Press. https://doi. org/10.1017/CBO9781139519526.016.

[4]. Credé, M., Roch, S. G., & Kieszczynka, U. M. (2010). Class attendance in college: A meta-analytic review of the relationship of class attendance with grades and student characteristics. Review of Educational Research, 80(2), 272-295. https://doi. org/10.3102/0034654310362998.

[5]. Fan, X., & Chen, M. (2001). Parental involvement and students’ academic achievement: A meta- analysis. Educational Psychology Review, 13(1), 1-22. https://doi. org/10.1023/A:1009048817385.

[6]. Ng, K., Liu, X., & Ho, T. (2022). A machine learning approach to predictive modelling of student performance. International Journal of Educational Technology in Higher Education, 19(2), 1-23. https://doi.org/10.1186/s41239-022-00327-4.

[7]. Nguyễn, T. T., Trần, V. Q., & Phạm, H.T. (2019). Determinants of academic performance of pupils in Vietnam. American Journal of Educational Research, 7(5), 464-470. https://doi. org/10.12691/education-7-5-4.

[8]. OECD. (2023). Quantifying the effect of policies to promote educational performance on macroeconomic productivity. OECD Publishing. https://one.oecd.org/document/ECO/ WKP(2023)34/en/pdf.

[9]. Romero, C., & Ventura, S. (2020). Educational data mining and learning analytics: An updated survey. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 10(3), e1355. https://doi.org/10.1002/ widm.1355.

[10]. Sheth, R., Patel, M., & Dave, M. (2022). A comparative analysis of machine learning algorithms for predicting student performance. Procedia Computer Science, 201, 519-526. https://doi.org/10.1016/j. procs.2022.03.067.

[11]. Siemens, G., & Baker, R. S. (2012). Learning analytics and educational data mining: Towards communication and collaboration. In Proceedings of the 2nd International Conference on Learning Analytics and Knowledge (pp. 252-254). ACM. https://doi. org/10.1145/2330601.2330661.

[12]. Wilson, J., Olinghouse, N. G., McCoach, D. B., Santangelo, T., & Andrada, G. N. (2016). Comparing the accuracy of different scoring methods for identifying sixth graders at risk of failing a state writing assessment. Assessing Writing, 27, 11-23. https:// doi.org/10.1016/j.asw.2015.06.003.

[13]. Wiyono, S., Dewi, A., & Setyawan, R. (2019). Comparative study of machine learning KNN, SVM, and Decision Tree algorithm to predict student performance. Journal of Computer Science, 15(7), 1015-1025. https://doi. org/10.3844/jcssp.2019.1015.1025.

[14]. Vũ, X. H., Trần, T. D., Đỗ, T. U., Hoàng, V. T., & Ngô, M. P. (2022, May 27). Phát hiện email URL lừa đảo sử dụng học máy có giám sát. Tạp chí Khoa học Trường Đại học Mở Hà Nội (Journal of Science Hanoi Open University). https://jshou.edu.vn/houjs/ article/view/78.

[15]. Vũ, X. H., Nguyễn, Đ. D., & Vũ, T. H. (2024, September 10). Chẩn đoán bệnh tim mạch ứng dụng học máy có giám sát. Tạp chí Khoa học Trường Đại học Mở Hà Nội (Journal of Science Hanoi Open University). https://doi. org/10.59266/houjs.2024.410.

[16]. El Kharoua, R. (n.d.). Students performance dataset. Kaggle. https://www.kaggle.com/datasets/ rabieelkharoua/students-performance- dataset.

Loading...