SỰ ẢNH HƯỞNG CÁC YẾU TỐ KIẾN TRÚC MẠNG CONVNEXTV2 ĐẾN NHẬN DẠNG BIỂU CẢM KHUÔN MẶT TỪ DỮ LIỆU THỰC TẾ

Dương Thăng Long , Vương Thu Trang, Phạm Quang Huy

doi:10.59266/houjs.2024.465

Authors

Dương Thăng Long , Vương Thu Trang, Phạm Quang Huy

DOI:

https://doi.org/10.59266/houjs.2024.465

Keywords:

Vision transformers, ConvNeXt V2 architecture, facial expression recognition

Abstract

Thành công của các mô hình Transformer đã cho thấy hiệu suất xuất sắc trong các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) đã được mở rộng sang lĩnh vực thị giác máy tính với các kiến trúc Vision Transformers (ViTs), đem lại kết quả tương đương hoặc vượt trội so với các mạng nơron tích chập (CNN) truyền thống trong các nhiệm vụ như nhận dạng hình ảnh và phát hiện đối tượng. Biến thể ConvNeXt V2, một mô hình cải tiến từ kiến trúc ResNet và kế thừa các điểm mạnh của kiến trúc ViTs như cấu trúc phân cấp các lớp nơron và cơ chế mã hóa tự động FCMAF nhằm mang lại hiệu suất cao và mô hình đơn giản hơn. Trong khi đó, nhận dạng biểu cảm khuôn mặt (FER) vẫn là một thách thức đối với các mô hình do hình ảnh trong thực tế bị các yếu tố như che khuất, biến đổi màu sắc và tư thế khuôn mặt. Nghiên cứu này áp dụng ConvNeXt V2 cho bài toán FER với việc điều chỉnh các tham số kiến trúc để đánh giá tác động của chúng trên dữ liệu thực tế của FER từ RAF_DB. Kết quả thử nghiệm cho thấy những yếu tố kiến trúc của ConvNeXt V2 tác động đến độ phức tạp của mô hình và chất lượng nhận dạng cho FER, cung cấp những phân tích ý nghĩa để làm rõ những vận dụng điểm mạnh của mô hình kiến trúc ViTs và kết hợp với các kiến trúc CNN truyền thống nhằm tăng thêm hiệu quả cho mô hình ứng dụng.

References

[1]. K. Han, Y. Wang, H. Chen, X. Chen, J. Guo, Z. Liu, Y. Tang, A. Xiao, C. Xu, Y. Xu, Z. Yang, Y. Zhang và D. Tao, “A Survey on Vision Transformer,” IEEE Transactions on Pattern Analysis and Machine Intelligence, tập 45, pp. 87-110; DOI: 10.1109/ TPAMI.2022.3152247, 2023.

[2]. Z. Liu, H. Mao, C.-Y. Wu, C. Feicht- enhofer, T. Darrell và S. Xie, “A convnet for the 2020s,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. pp. 11966-11976, doi: 10.1109/ CVPR52688.2022.01167, 2022.

[3]. S. Woo, S. Debnath, R. Hu, X. Chen, Z. Liu, I. S. Kweon và S. Xie, “ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders,” IEEE/ CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 16133-16142, doi: 10.1109/ CVPR52729.2023.01548., 2023.

[4]. S. Chen, Y. Ogawa, C. Zhao và Y. Sekimoto, “Large-scale individual building extraction from open-source satellite imagery via super-resolution- based instance segmentation approach,” ISPRS Journal of Photogrammetry and Remote Sensing, tập 195, pp. 129–152, https://doi.org/10.1016/j. isprsjprs.2022.11.006, 2023.

[5]. D. T. Long, “Efficient Multi-Task CNN for Face and Facial Expression Recognition Using Residual and Dense Architectures for Application in Monitoring Online Learning,” International Journal of Fuzzy Logic and Intelligent Systems, tập 23, số 3, pp. 229-243. http://doi.org/10.5391/ IJFIS.2023.23.3.229, 2023.

[6]. D. T. Long, “EFFICIENT CNN MODEL BASED ON COMBINING RESIDUAL NETWORK AND DENSE-CONNECTED NETWORK ARCHITECTURES FOR FACIAL EXPRESSION RECOGNITION,” International Journal of Innovative Computing, Information and Control, tập 19, số 5, p. 1661–1678. DOI: 10.24507/ijicic.19.05.1661, 2023.

[7]. S. Li, W. Deng và J. Du, “Reliable Crowdsourcing and Deep Locality- Preserving Learning for Expression Recognition in the Wild,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2584- 2593, doi: 10.1109/CVPR.2017.277, 2017.

[8]. D.T.Long, “A Lightweight Face Recognition Model Using Convolutional Neural Network for Monitoring Students in E-Learning,” I.J. Modern Education and Computer Science, tập 6, pp. 16-28, 2020.

[9]. R. R. Devaram và A. Cesta, “LEMON: A Lightweight Facial Emotion Recognition System for Assistive Robotics Based on Dilated Residual Convolutional Neural Networks,” Sensors, tập 22, số 3366, pp. 1-20, 2022.

[10]. N. Zhou, R. Liang và W. Shi, “A Lightweight Convolutional Neural Network for Real-Time Facial Expression Detection,” IEEE Access, tập 9, pp. 5573 - 5584, 2020.

[11]. P. N. R. Bodavarapu và P. Srinivas, “An Optimized Neural Network Model for Facial Expression Recognition over Traditional Deep Neural Networks,” International Journal of Advanced Computer Science and Applications, tập 12, số 7, pp. 443-451, 2021.

[12]. Y. Nan, J. Ju, Q. Hua, H. Zhang và B. Wang, “A-MobileNet: An approach of facial expression recognition,” Alexandria Engineering Journal, tập 61, p. 4435–4444, 2022.

[13]. S.-C. Lai, C.-Y. Chen và J.-H. Li, “Efficient Recognition of Facial Expression with Lightweight Octave Convolutional Neural Network,” Journal of Imaging Science and Technology, pp. 040402.1-9, 2022.

[14]. I. Loshchilov và F. Hutter, “Decoupled Weight Decay Regularization,” International Conference on Learning Representations, ICLR2019, pp. 1-8; https://doi.org/10.48550/ arXiv.1711.05101, 2019.

[15]. L. v. d. Maaten và G. Hinton, “Visualizing Data using t-SNE,” Journal of Machine Learning Research, tập 9, số 86, pp. 2579-2605, 2008.

[16]. D. T. Long, “Efficient DenseNet Model with Fusion of Channel and Spatial Attention for Facial Expression Recognition,” CYBERNETICS AND INFORMATION TECHNOLOGIES, tập 24, số 1, pp. 171-189, 2024.

[17]. R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh và D. Batra, “Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization,” IEEE International Conference on Computer Vision (ICCV), pp. 618-626; doi: 10.1109/ ICCV.2017.74, 2017.

[18]. D.T.Long, “A Facial Expressions Recognition Method Using Residual Network Architecture for Online Learning Evaluation,” Journal of Advanced Computational Intelligence and Intelligent Informatics, tập 25, số 6, pp. 1-10, 2021.