ỨNG DỤNG NGÔN NGỮ PYTHON VÀ ĐÁNH GIÁ CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG PHÂN TÍCH DỰ ĐOÁN BÉO PHÌ DỰA TRÊN CHỈ SỐ NHÂN TRẮC HỌC
DOI:
https://doi.org/10.59266/houjs.2025.582Từ khóa:
dự đoán béo phì, khai phá dữ liệu, ngôn ngữ lập trình python, phương pháp bayesian, mô hình LightGBM, mô hình Random Forest, mô hình MLPTóm tắt
Trong bối cảnh tỷ lệ béo phì gia tăng nhanh chóng tại Việt Nam (tăng 38% trong giai đoạn 2010-2014) và trên toàn cầu, việc áp dụng các phương pháp khoa học dữ liệu tiên tiến mang lại tiềm năng đáng kể trong việc cải thiện độ chính xác chẩn đoán và chiến lược can thiệp cá nhân hóa. Nghiên cứu của chúng tôi hướng tới việc triển khai các mô hình học máy phân tích các dữ liệu y tế để dự đoán nguy cơ mắc bệnh béo phì, kết hợp với việc sử dụng các thư viện của ngôn ngữ lập trình Python trên năm lĩnh vực chức năng: xử lý dữ liệu (Pandas, Dask), tính toán số học (NumPy, SymPy), trực quan hóa (Matplotlib, Seaborn, Plotly), học máy (Scikit-learn, TensorFlow, PyTorch) và phân tích thống kê (Statsmodels, SciPy). Sử dụng bộ dữ liệu đa quốc gia (n=33.610) gồm 17 biến nhân trắc học và lối sống, chúng tôi đã phát triển và tối ưu hóa nhiều mô hình phân loại thông qua phương pháp tối ưu hóa Bayesian. Kết quả cho thấy thuật toán LightGBM đạt hiệu suất vượt trội (độ chính xác=93,07%, F1-score=92,48%, PR-AUC=96,30%), vượt trội đáng kể so với mô hình Random Forest (độ chính xác=92,25%) và Multi-Layer Perceptron (độ chính xác=89,05%). Việc triển khai các công cụ này đã tạo điều kiện cho việc phát triển hệ thống tích hợp cung cấp khuyến nghị sức khỏe cá nhân hóa dựa trên mức độ rủi ro béo phì dự đoán. Nghiên cứu này đóng góp vào cả sự tiến bộ về phương pháp phân tích dữ liệu sức khỏe và ứng dụng thực tiễn trong phòng chống béo phì thông qua can thiệp cá nhân hóa dựa trên công nghệ.
Tài liệu tham khảo
[1]. Al-Hazzaa, H. M., Abahussain, N. A., Al-Sobayel, H. I., Qahwaji, D. M., & Musaiger, A. O. (2012). Lifestyle factors associated with overweight and obesity among Saudi adolescents. BMC Public Health, 12, 354. https:// doi.org/10.1186/1471-2458-12-354.
[2]. Bag, H. G. G., Yagin, F. H., Gormez, Y., Prieto González, P., Colak, C., Gülü, M., Badicu, G., & Ardigò, L. P. (2023). Estimation of obesity levels through the proposed predictive approach based on physical activity and nutritional habits. International Journal of Environmental Research and Public Health, 20(3), 2094. https://doi.org/10.3390/ ijerph20032094.
[3]. Carlson, J. A., Crespo, N. C., Sallis, J. F., Patterson, R. E., & Elder, J. P. (2012). Dietary-related and physical activity-related predictors of obesity in children: A 2-year prospective study. Childhood Obesity, 8(2), 110-115. https://doi.org/10.1089/chi.2011.0071.
[4]. Kaggle. (n.d.). Privacy Policy. https:// www.kaggle.com/privacy.
[5]. Ohlsson, B., & Manjer, J. (2020). Sociodemographic and lifestyle factors in relation to overweight defined by BMI and “normal-weight obesity”. Journal of Obesity, 2020, 2070297. https://doi.org/10.1155/2020/2070297.
[6]. Panuganti, K. K., Nguyen, M., & Kshirsagar, R. K. (2023). Obesity. National Library of Medicine. https:// www.ncbi.nlm.nih.gov/books/ NBK459357/.
[7]. Specht, I. O., Heitmann, B. L., & Larsen, S. C. (2022). Physical activity and subsequent change in body weight, composition and shape: Effect modification by familial overweight. Frontiers in Endocrinology, 13, Article 787827. https://doi.org/10.3389/ fendo.2022.787827.
[8]. Tapera, R., Merapelo, M. T., Tumoyagae, T., Maswabi, T. M., Erick, P., Letsholo, B., & Mbongwe, B. (2017). The prevalence and factors associated with overweight and obesity among University of Botswana students. Cogent Medicine, 4(1), Article 1357249. https://doi.org/10.108 0/2331205X.2017.1357249.
[9]. Tạp chí Bảo hiểm Xã hội. (2022). Bộ Y tế: Ban hành hướng dẫn chẩn đoán và điều trị bệnh béo phì. Tạp chí Bảo hiểm Xã hội. https://tapchibaohiemxahoi. gov.vn/bo-y-te-ban-hanh-huong-dan- chan-doan-va-dieu-tri-benh-beo- phi-93538.html.
[10]. Wang, Y., & Beydoun, M. A. (2007). The obesity epidemic in the United States— Gender, age, socioeconomic, racial/ ethnic, and geographic characteristics: A systematic review and meta- regression analysis. Epidemiologic Reviews, 29(1), 6-28. https://doi. org/10.1093/epirev/mxm007.