设计应用

基于深度学习的词语级中文唇语识别

作者:陈红顺1,陈观明1,2
发布日期:2022-12-20
来源:2022年电子技术应用第12期

0 引言

    语言是人类沟通交流的主要方式,语音是人类语言交流的主要载体之一。在无声或噪声干扰严重的环境下,或对于存在听觉障碍的人群,如何利用通过嘴唇运动进行语言识别至关重要。唇语识别是指通过观察和分析人说话时唇部运动的特征变化,识别出人所说话的内容。唇语识别具有广阔的应用前景:在医疗健康领域,可以借助唇语识别辅助患有听力障碍的病人沟通交流[1];在安防领域,人脸识别同时通过唇语识别以提高活体识别的安全性[2];在视频合成领域, 利用唇语识别可以合成特定人物讲话场景的视频[3],或者合成高真实感的虚拟人物动画等。

    唇语识别主要包含4个步骤[4]:人脸关键点检测与跟踪、唇语区域提取、时空特征提取和分类与解码。其中,时空特征提取和分类与解码是唇语识别的研究重点。近年来,随着大规模数据集[5]的出现,基于深度学习的方法可以自动抽取深层特征,逐渐成为唇语识别研究的主流方法[6]。如图1所示,基于深度学习的唇语学习方法将一系列的唇部图像送入前端以提取特征,然后传递给后端以进行分类预测,并以端到端的形式进行训练。




本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005040




作者信息:

陈红顺1,陈观明1,2

(1.北京师范大学珠海分校 信息技术学院,广东 珠海519087;2.珠海欧比特宇航科技股份有限公司,广东 珠海519080)




wd.jpg

此内容为AET网站原创,未经授权禁止转载。
唇语识别 ResNet Bi-LSTM CTCLoss 自注意力机制