基于深度学习的词语级中文唇语识别

来源：语言识别时间：2023/12/14

作者：陈红顺1，陈观明1，2作者单位1.北京师范大学珠海分校信息技术学院，广东珠海；2.珠海欧比特宇航科技股份有限公司，广东珠海。摘要：在无声或噪声干扰严重的环境下，或对于存在听觉障碍的人群，唇语识别至关重要。针对词语级中文唇语识别的问题，提出了SinoLipReadingNet模型，前端采用Conv3D+ResNet34结构用于时空特征提取，后端分别采用Conv1D结构和Bi-LSTM结构用于分类预测，并引入Self-Attention、CTCLoss对Bi-LSTM后端进行改进。最终在新网银行唇语识别数据集上进行实验，结果表明，SinoLipReadingNet模型在识别准确率上明显优于中科院D3D模型，多模型融合的预测准确率达到了77.64%，平均字错率为21.68%。引言：语言是人类沟通交流的主要方式，语音是人类语言交流的主要载体之一。在无声或噪声干扰严重的环境下，或对于存在听觉障碍的人群，如何利用通过嘴唇运动进行语言识别至关重要。唇语识别是指通过观察和分析人说话时唇部运动的特征变化，识别出人所说话的内容。唇语识别具有广阔的应用前景：在医疗健康领域，可以借助唇语识别辅助患有听力障碍的病人沟通交流[1]；在安防领域，人脸识别同时通过唇语识别以提高活体识别的安全性[2]；在视频合成领域,利用唇语识别可以合成特定人物讲话场景的视频[3]，或者合成高真实感的虚拟人物动画等。唇语识别主要包含4个步骤[4]：人脸关键点检测与跟踪、唇语区域提取、时空特征提取和分类与解码。其中，时空特征提取和分类与解码是唇语识别的研究重点。近年来，随着大规模数据集[5]的出现，基于深度学习的方法可以自动抽取深层特征，逐渐成为唇语识别研究的主流方法[6]。如图1所示，基于深度学习的唇语学习方法将一系列的唇部图像送入前端以提取特征，然后传递给后端以进行分类预测，并以端到端的形式进行训练。文章来源：《电子技术应用》杂志12月刊，下载论文PDF?商务合作：?请致电-/?或致件Tiger

chinaaet.

转载请注明：http://www.0431gb208.com/sjszlfa/6687.html

上一篇文章：扫除语言障碍Meta发布AI模型,支持

下一篇文章：为国人量声定制丨一文读懂中文感知言语