SO SÁNH CÁC GIẢI PHÁP OCR TRONG NHẬN DẠNG VĂN BẰNG TIẾNG VIỆT VÀ ĐỀ XUẤT ỨNG DỤNG THỰC TIỄN

Authors

  • Đặng Hải Đăng, Lưu Tiến Trung

DOI:

https://doi.org/10.59266/houjs.2025.720

Keywords:

nhận dạng ký tự quang học (OCR), nhận dạng văn bản, tiếng Việt, số hóa tài liệu, xử lý hình ảnh

Abstract

Công nghệ nhận dạng ký tự quang học (OCR) là một công cụ hiện đại để trích xuất văn bản từ hình ảnh, đem lại hiệu quả đáng kể trong việc tự động hóa nhận dạng văn bằng. Nghiên cứu này thử nghiệm bốn phương pháp OCR phổ biến và đưa ra các khuyến nghị triển khai thực tế, đó là DeepSeek, Meta AI’s LLaMA-3.2-11B-Vision-Instruct-Turbo, EasyOCR và API Gemini của Google, trong việc nhận dạng văn bản từ văn bằng tiếng Việt.  Sau khi thực hiện xây dựng, cài đặt và triển khai các giải pháp tập trung vào ba tiêu chí: độ chính xác, tính ổn định và khả năng thực tiễn cho thấy DeepSeek không hỗ trợ ngôn ngữ tiếng Việt, EasyOCR yêu cầu xác định tọa độ thủ công, trong khi API Gemini và LLaMA đạt hiệu suất vượt trội với độ chính xác cao cho văn bằng, chứng chỉ có sử dụng chữ viết tay, trong đó LLaMA là nền tảng mã nguồn mở, không phụ thuộc nhà cung cấp. Nghiên cứu cho thấy triển khai OCR sử dụng LLaMA là giải pháp tối ưu nhất tính cả trên phương diện thời gian, công sức và nguồn lực tài chính.

References

[1]. Le, A., Lam, T., & Nguyen, D. (2025). A survey on Vietnamese document analysis and recognition: Challenges and future directions (arXiv:2506.05061). https://arxiv.org/pdf/2506.05061

[2]. Nguyen, T. H., Dinh, V. S., & Nguyen, P. L. (2022, May). Vietnamese OCR: Research and applications. BKAI Workshop. https://bkai.ai/wp-content/uploads/2022/05/Nguyen-Phi-Le_BKAI-workshop_OCR-Project_v3.pdf

[3]. Smith, R. (2007). An overview of the Tesseract OCR engine. In Proceedings of the Ninth International Conference on Document Analysis and Recognition (ICDAR) (Vol. 2, pp. 629–633). IEEE. https://ieeexplore.ieee.org/document/4376991

[4]. Zacharias, E., & Teuchler, M. (2020). Image processing based scene- text detection and recognition with Tesseract. arXiv. https://arxiv.org/ abs/2004.08079

[5]. Hegghammer, T. (2022). OCR with Tesseract, Amazon Textract, and Google Document AI: A benchmarking experiment. Journal of Computational Social Science, 5, 861–882. https://doi.org/10.1007/s42001-021-00149-1

[6]. Memon, J., Sami, M., Khan, R. A., & Uddin, M. (2020). Handwritten optical character recognition (OCR): A comprehensive systematic literature review (SLR). IEEE Access, 8, 142647–142668 https://doi.org/10.1109/ ACCESS.2020.3012542

[7]. Nguyen, N. H., Vo, D. T. D., & Nguyen, K. V. (2022). UIT-HWDB: Using transferring method to construct a novel benchmark for evaluating unconstrained handwriting image recognition in Vietnamese. arXiv. https://arxiv.org/abs/2211.05407

[8]. Patel, D., & Patel, A. (2022). Comparative study of optical character recognition using different machine learning techniques. In Proceedings of the International Conference on Intelligent Systems and Data Science (pp. 447–456). Springer. https://doi.org/10.1007/978-981-19-9512-5_38

[9]. Raj, A., Sharma, S., Singh, J., & Singh, A. (2023). Revolutionizing data entry: An in-depth study of optical character recognition technology and its future potential. International Journal for Research in Applied Science & Engineering Technology, 11(2). https://doi.org/10.22214/IJRAS ET.2023.49108

[10]. Nguyen, Q. D., Le, D. A., Phan, N. M., & Zelinka, I. (2020). An in-depth analysis of OCR errors for unconstrained Vietnamese handwriting. In Future Data and Security Engineering (pp. 448–461). Springer. https://doi. org/10.1007/978-3-030-63924-2_26

[11]. Agarwal, M., & Anastasopoulos, A. (2024). A concise survey of OCR for low-resource languages. In Proceedings of the 4th Workshop on Natural Language Processing for Indigenous Languages of the Americas (AmericasNLP 2024) (pp. 88–102). Association for Computational Linguistics. https://aclanthology.org/2024.americasnlp-1.10/

[12]. Google. (2025). Gemini Developer API https://ai.google.dev/gemini-api/docs

Loading...