HỆ THỐNG MÔ PHỎNG GIỌNG NÓI BẰNG TRÍ TUỆ NHÂN TẠO TRONG THIẾT KẾ HỌC LIỆU ĐIỆN TỬ
DOI:
https://doi.org/10.59266/houjs.2026.1174Keywords:
nhân bản giọng nói, chuyển văn bản thành giọng nói, trí tuệ nhân tạo, học liệu điện tử, giáo dục sốAbstract
Trong bối cảnh đào tạo trực tuyến phát triển mạnh, học liệu điện tử cần được thiết kế theo hướng cá nhân hóa và dễ cập nhật. Học liệu âm thanh (giọng thuyết minh/bài giảng) là thành phần quan trọng nhưng quy trình thu âm truyền thống còn tốn thời gian, phụ thuộc nhân lực và khó bảo đảm tính nhất quán khi chỉnh sửa nội dung. Nghiên cứu này phát triển hệ thống chuyển văn bản thành giọng nói (Text-to-Speech - TTS) ứng dụng trí tuệ nhân tạo có khả năng mô phỏng giọng giảng viên nhằm rút ngắn, tiến tới giảm nhu cầu thu âm khi sản xuất học liệu. Hệ thống theo kiến trúc client-server, tích hợp mô hình viXTTS tinh chỉnh trên bộ dữ liệu viVoice để tạo âm thanh theo giọng tham chiếu. Kết quả thử nghiệm cho thấy độ tương đồng giữa giọng mô phỏng và giọng gốc đạt trên 95% và duy trì tính nhất quán giữa các mẫu giọng. Nghiên cứu góp phần đề xuất một quy trình kỹ thuật khả thi để tích hợp voice cloning vào xây dựng học liệu điện tử có âm thanh trong bối cảnh tiếng Việt, đồng thời cung cấp cơ sở cho các thử nghiệm triển khai tại cơ sở giáo dục.
References
Azzuni, H., & El Saddik, A. E. (2025). Voice cloning: Comprehensive survey. arXiv. https://arxiv.org/abs/2505.00579
Davis, S., & Mermelstein, P. (1980). Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4), 357-366. https://doi.org/10.1109/TASSP.1980.1163420
Kumari, M., Goyal, N. K., Dandotiya, M. K., & Kushwaha, V. (2024). An effective detection of voice cloning using deep learning. In Proceedings of the 6th InternationalConferenceonInformation Management & Machine Intelligence (ICIMMI 2024). Association for Computing Machinery. https://doi.org/10.1145/3745812.3745895
Le, T. (Thinh Le). (2024a). viVoice: Enabling Vietnamese multi-speaker speech synthesis [Dataset]. Hugging Face. https://huggingface.co/datasets/capleaf/viVoice
Le, T. (Thinh Le). (2024b). viXTTS [Model]. Hugging Face. https://huggingface.co/capleaf/viXTTS
Liew, T. W., Tan, S. M., Pang, W. M., Khan, M. T. I., & Kew, S. N. (2023). I am Alexa, your virtual tutor!: The effects of Amazon Alexa’s text-to-speech voice enthusiasm in a multimedia learning environment. Education and Information Technologies, 28(2), 1455- 1489. https://doi.org/10.1007/s10639-022-11255-6
Marty-Dugas, J., Rajasingham, M., McHardy, R. J., Kim, J., & Smilek, D. (2024). Instructor enthusiasm in online lectures: How vocal enthusiasm impacts student engagement, learning, and memory. Frontiers in Education, 9, 1339815. https://doi.org/10.3389/feduc.2024.1339815
McFee, B., Raffel, C., Liang, D., Ellis, D. P. W., McVicar, M., Battenberg, E., & Nieto, O. (2015). librosa: Audio and music signal analysis in Python. In Proceedings of the 14th Python in Science Conference (pp. 18-25). https://doi.org/10.25080/Majora-7b98e3ed-003
Nguyễn Thành Việt, & Trần Duy Linh. (2026). Phát triển mô hình nhận dạng tiếng nói dân tộc thiểu số Hrê, Co sang tiếng Việt dạng văn bản sử dụng trí tuệ nhân tạo. Tạp chí Khoa học & Công nghệ Việt Nam, 68(1). https://doi.org/10.31276/VJST.2024.2810
Phạm, N. P. (2023). Nghiên cứu phát triển hệ thống thích nghi giọng nói trong tổng hợp tiếng Việt và ứng dụng (Luận án Tiến sĩ, Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam).
Qiao, Z., Yang, J., & Wang, Z. (2023). Multi- feature cross-lingual transfer learning approach for low-resource Vietnamese speech synthesis. In Proceedings of the 2023 3rd International Conference on Artificial Intelligence, Automation and Algorithms (AI2A ’23). Association for Computing Machinery. https://doi.org/10.1145/3611450.3611476
Raffoul, S., & Jaber, L. (2023). Text-to-speech software and reading comprehension: The impact for students with learning disabilities. Canadian Journal of Learning and Technology, 49(2), 1-18. https://doi.org/10.21432/cjlt28296
Roosadi, H. R. P., Prakosa, S. W., & Lhaksmana, K. M. (2024). Indonesian voice cloning text-to-speech system with Vall-E-based model and speech enhancement. IEEE Access, 12, 193131-193140.
Sadik, M., Vijaya, P., Revathi, Y., Siva Naga Tanuja, V., Soudhamini, B., & Vaishnavi, R. (2025). AI-based voice cloning system: From text to speech. International Journal of Innovative Science and Research Technology, 10(4), 1453-1461.
Zheng, Z., Peng, P., Diwan, A., Huynh, C. P., Sun, X., Liu, Z., Bhat, V., & Harwath, D. (2025). VoiceCraft-X: Unifying multilingual, voice-cloning speech synthesis and speech editing. arXiv. https://arxiv.org/abs/2511.12347