设计应用

融合CNN和Transformer编码器的变声语音鉴别与还原

作者:魏春雨,孙 蒙,刘 伟,张星昱
发布日期:2022-01-19
来源:信息技术与网络安全 1期

0 引言

近年来,基于指纹、人脸、虹膜、声纹的生物特征识别技术得到了迅速发展[1]。其中,声纹识别[2]以其采集方便、无需直接接触、可体现说话人的主观意图等优点,被广泛应用于身份认证、刑事侦查等领域。公安部门可以通过提取犯罪嫌疑人的声纹信息,将其与数据库中的声纹信息进行比对,进而确认嫌疑人的真实身份。然而,这种确认经常受到各种因素的干扰,其中语音变声伪装就可以通过隐匿说话人的身份,降低声纹确认的效果。

与通过压低嗓音、捏鼻子等方式物理干扰人的发声器官进行的语音伪装不同,语音变声伪装是利用变声工具对语音参数进行修改实现变声[3]。目前,各种硬件变声设备和变声软件在匿名采访、网络聊天、电子游戏等场景中得到了广泛应用。同时,一些不法分子利用变声语音进行违法犯罪活动,对案件的侦破造成了干扰。相比通过物理干扰发声器官而产生的伪装语音,变声语音更加难以辨认。变声工具会改变语音的频谱结构,进而影响声纹识别模型对说话人的验证[4-5]。有研究表明,向普通人播放经过变声伪装的语音,甚至不能准确地判断出说话人的性别。



本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003936






作者信息:

魏春雨,孙  蒙,刘  伟,张星昱

(陆军工程大学 指挥控制工程学院,江苏 南京210007)


此内容为AET网站原创,未经授权禁止转载。
基频变声 语音鉴伪 变声还原 时频特征