HỆ THỐNG MÔ PHỎNG GIỌNG NÓI BẰNG TRÍ TUỆ NHÂN TẠO TRONG THIẾT KẾ HỌC LIỆU ĐIỆN TỬ

Đặng Hải Đăng, Quách Thị Hạnh; Nguyễn Văn Hoàng, Nguyễn Đức Tín

doi:10.59266/houjs.2026.1174

Authors

Đặng Hải Đăng, Quách Thị Hạnh
Nguyễn Văn Hoàng, Nguyễn Đức Tín

DOI:

https://doi.org/10.59266/houjs.2026.1174

Keywords:

nhân bản giọng nói, chuyển văn bản thành giọng nói, trí tuệ nhân tạo, học liệu điện tử, giáo dục số

Abstract

Trong bối cảnh đào tạo trực tuyến phát triển mạnh, học liệu điện tử cần được thiết kế theo hướng cá nhân hóa và dễ cập nhật. Học liệu âm thanh (giọng thuyết minh/bài giảng) là thành phần quan trọng nhưng quy trình thu âm truyền thống còn tốn thời gian, phụ thuộc nhân lực và khó bảo đảm tính nhất quán khi chỉnh sửa nội dung. Nghiên cứu này phát triển hệ thống chuyển văn bản thành giọng nói (Text-to-Speech - TTS) ứng dụng trí tuệ nhân tạo có khả năng mô phỏng giọng giảng viên nhằm rút ngắn, tiến tới giảm nhu cầu thu âm khi sản xuất học liệu. Hệ thống theo kiến trúc client-server, tích hợp mô hình viXTTS tinh chỉnh trên bộ dữ liệu viVoice để tạo âm thanh theo giọng tham chiếu. Kết quả thử nghiệm cho thấy độ tương đồng giữa giọng mô phỏng và giọng gốc đạt trên 95% và duy trì tính nhất quán giữa các mẫu giọng. Nghiên cứu góp phần đề xuất một quy trình kỹ thuật khả thi để tích hợp voice cloning vào xây dựng học liệu điện tử có âm thanh trong bối cảnh tiếng Việt, đồng thời cung cấp cơ sở cho các thử nghiệm triển khai tại cơ sở giáo dục.

References

Azzuni, H., & El Saddik, A. E. (2025). Voice cloning: Comprehensive survey. arXiv. https://arxiv.org/abs/2505.00579

Davis, S., & Mermelstein, P. (1980). Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4), 357-366. https://doi.org/10.1109/TASSP.1980.1163420

Kumari, M., Goyal, N. K., Dandotiya, M. K., & Kushwaha, V. (2024). An effective detection of voice cloning using deep learning. In Proceedings of the 6th InternationalConferenceonInformation Management & Machine Intelligence (ICIMMI 2024). Association for Computing Machinery. https://doi.org/10.1145/3745812.3745895

Le, T. (Thinh Le). (2024a). viVoice: Enabling Vietnamese multi-speaker speech synthesis [Dataset]. Hugging Face. https://huggingface.co/datasets/capleaf/viVoice

Le, T. (Thinh Le). (2024b). viXTTS [Model]. Hugging Face. https://huggingface.co/capleaf/viXTTS

Liew, T. W., Tan, S. M., Pang, W. M., Khan, M. T. I., & Kew, S. N. (2023). I am Alexa, your virtual tutor!: The effects of Amazon Alexa’s text-to-speech voice enthusiasm in a multimedia learning environment. Education and Information Technologies, 28(2), 1455- 1489. https://doi.org/10.1007/s10639-022-11255-6

Marty-Dugas, J., Rajasingham, M., McHardy, R. J., Kim, J., & Smilek, D. (2024). Instructor enthusiasm in online lectures: How vocal enthusiasm impacts student engagement, learning, and memory. Frontiers in Education, 9, 1339815. https://doi.org/10.3389/feduc.2024.1339815

McFee, B., Raffel, C., Liang, D., Ellis, D. P. W., McVicar, M., Battenberg, E., & Nieto, O. (2015). librosa: Audio and music signal analysis in Python. In Proceedings of the 14th Python in Science Conference (pp. 18-25). https://doi.org/10.25080/Majora-7b98e3ed-003

Nguyễn Thành Việt, & Trần Duy Linh. (2026). Phát triển mô hình nhận dạng tiếng nói dân tộc thiểu số Hrê, Co sang tiếng Việt dạng văn bản sử dụng trí tuệ nhân tạo. Tạp chí Khoa học & Công nghệ Việt Nam, 68(1). https://doi.org/10.31276/VJST.2024.2810

Phạm, N. P. (2023). Nghiên cứu phát triển hệ thống thích nghi giọng nói trong tổng hợp tiếng Việt và ứng dụng (Luận án Tiến sĩ, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam).

Qiao, Z., Yang, J., & Wang, Z. (2023). Multi- feature cross-lingual transfer learning approach for low-resource Vietnamese speech synthesis. In Proceedings of the 2023 3rd International Conference on Artificial Intelligence, Automation and Algorithms (AI2A ’23). Association for Computing Machinery. https://doi.org/10.1145/3611450.3611476

Raffoul, S., & Jaber, L. (2023). Text-to-speech software and reading comprehension: The impact for students with learning disabilities. Canadian Journal of Learning and Technology, 49(2), 1-18. https://doi.org/10.21432/cjlt28296

Roosadi, H. R. P., Prakosa, S. W., & Lhaksmana, K. M. (2024). Indonesian voice cloning text-to-speech system with Vall-E-based model and speech enhancement. IEEE Access, 12, 193131-193140.

Sadik, M., Vijaya, P., Revathi, Y., Siva Naga Tanuja, V., Soudhamini, B., & Vaishnavi, R. (2025). AI-based voice cloning system: From text to speech. International Journal of Innovative Science and Research Technology, 10(4), 1453-1461.

Zheng, Z., Peng, P., Diwan, A., Huynh, C. P., Sun, X., Liu, Z., Bhat, V., & Harwath, D. (2025). VoiceCraft-X: Unifying multilingual, voice-cloning speech synthesis and speech editing. arXiv. https://arxiv.org/abs/2511.12347