HỆ THỐNG TRỢ LÝ Y TẾ ẢO DỰA TRÊN MÔ HÌNH NGÔN NGỮ LỚN TỐI ƯU HÓA TẠI BIÊN SỬ DỤNG TRÊN THIẾT BỊ HẠN CHẾ TÀI NGUYÊN

Đỗ Đình Hưng *, Đỗ Quốc Trinh

doi:10.59266/houjs.2026.1167

Các tác giả

Đỗ Đình Hưng *, Đỗ Quốc Trinh

DOI:

https://doi.org/10.59266/houjs.2026.1167

Từ khóa:

trợ lý y tế ảo, AI tại biên, mô hình ngôn ngữ nhỏ, lượng tử hóa, bảo mật dữ liệu, thiết bị hạn chế tài nguyên

Tóm tắt

Sự phát triển vượt bậc của các mô hình ngôn ngữ lớn (LLMs) đã mang lại tiềm năng to lớn trong chẩn đoán và tư vấn y tế. Tuy nhiên, việc phụ thuộc vào hạ tầng điện toán đám mây tiềm ẩn nhiều rủi ro về bảo mật dữ liệu y tế nhạy cảm và hạn chế tính khả dụng tại các khu vực thiếu kết nối Internet. Bài báo này đề xuất thiết kế và triển khai một hệ thống trợ lý y tế ảo cục bộ, hoạt động hoàn toàn ngoại tuyến trên vi máy tính NVIDIA Jetson Nano. Cốt lõi của hệ thống là mô hình Llama 3.2 1B Instruct, được tinh chỉnh tham số hiệu quả bằng kỹ thuật LoRA và thư viện Unsloth trên bộ dữ liệu y khoa tiếng Việt. Để vượt qua rào cản tài nguyên phần cứng (RAM 4GB), mô hình được lượng tử hóa xuống định dạng GGUF 4-bit và thực thi thông qua engine llama.cpp. Hệ thống tích hợp module nhớ ngữ cảnh cục bộ dựa trên SQLite và giao diện nhận dạng/tổng hợp giọng nói. Các thử nghiệm thực nghiệm cho thấy hệ thống đạt tốc độ suy luận trung bình 6.8 tokens/giây, tiêu thụ 2.8 GB VRAM, và đạt độ chính xác lâm sàng khả quan (>4.0/5.0 theo đánh giá chuyên gia) trên 200 kịch bản bệnh lý phổ biến. Nghiên cứu khẳng định tính khả thi của việc dân chủ hóa AI y tế trên các thiết bị biên chi phí thấp, đảm bảo quyền riêng tư và khả năng phản ứng thời gian thực.

Tài liệu tham khảo

Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., Lee, P., Lee, Y. T., Li, Y., Lundberg, S., Nori, H., Palangi, H., Ribeiro, M. T., & Zhang, Y. (2023). Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv. https://arxiv.org/abs/2303.12712

Dettmers, T., Pagnoni, A., Holtzman, A., & Zettlemoyer, L. (2023). QLoRA: Efficient finetuning of quantized LLMs. arXiv. https://arxiv.org/abs/2305.14314

Dubey, A., Abhinav, A., Agarwal, A., et al. (2024). The Llama 3 herd of models. arXiv. https://arxiv.org/abs/2407.21783

Gerganov, G. (2023). llama.cpp: Port of Meta’s LLaMA model in C/ C++. GitHub. https://github.com/ggerganov/llama.cpp

Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, L., Chen, W., & Chen, Z. (2021). LoRA: Low-rank adaptation of large language models. arXiv. https://arxiv.org/abs/2106.09685

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y., Madotto, A., & Fung, P. (2023). Survey of hallucination in natural language generation. ACM Computing Surveys, 55(12), Article 248. https://doi.org/10.1145/3571730

Meskó, B., & Topol, E. J. (2023). The imperative for regulatory oversight of large language models (or generative AI) in healthcare. NPJ Digital Medicine, 6, Article 120. https://doi.org/10.1038/s41746-023-00873-0

Mittal, V., & Vaishay, S. (2020). A survey of techniques for improving energy efficiency in machine learning. Journal of Computer Science and Technology, 35(4), 742-767.

NVIDIA. (2020). NVIDIA A100 Tensor Core GPU architecture. NVIDIA Corporation. https://www.nvidia.com

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744.

Singhal, K., Azizi, S., Tu, T., Mahdavi, S. S., Wei, J., Chung, H. W., Scales, N., Tanwani, A., Cole-Lewis, H., Pfohl, S., et al. (2023). Large language models encode clinical knowledge. Nature, 620, 172-180. https://doi.org/10.1038/s41586-023-06291-2

Taori, R., Gulrajani, I., Zhang, T., Dubois, Y., Li, X., Guestrin, C., Liang, P., & Hashimoto, T. B. (2023). Stanford Alpaca: An instruction-following LLaMA model. GitHub. https://github.com/tatsu-lab/stanford_alpaca