设计应用

融合CNN和Transformer编码器的变声语音鉴别与还原

作者：魏春雨，孙蒙，刘伟，张星昱

发布日期：2022-01-19

来源：信息技术与网络安全 1期

0 引言

近年来，基于指纹、人脸、虹膜、声纹的生物特征识别技术得到了迅速发展[1]。其中，声纹识别[2]以其采集方便、无需直接接触、可体现说话人的主观意图等优点，被广泛应用于身份认证、刑事侦查等领域。公安部门可以通过提取犯罪嫌疑人的声纹信息，将其与数据库中的声纹信息进行比对，进而确认嫌疑人的真实身份。然而，这种确认经常受到各种因素的干扰，其中语音变声伪装就可以通过隐匿说话人的身份，降低声纹确认的效果。

与通过压低嗓音、捏鼻子等方式物理干扰人的发声器官进行的语音伪装不同，语音变声伪装是利用变声工具对语音参数进行修改实现变声[3]。目前，各种硬件变声设备和变声软件在匿名采访、网络聊天、电子游戏等场景中得到了广泛应用。同时，一些不法分子利用变声语音进行违法犯罪活动，对案件的侦破造成了干扰。相比通过物理干扰发声器官而产生的伪装语音，变声语音更加难以辨认。变声工具会改变语音的频谱结构，进而影响声纹识别模型对说话人的验证[4-5]。有研究表明，向普通人播放经过变声伪装的语音，甚至不能准确地判断出说话人的性别。

本文详细内容请下载：http://www.chinaaet.com/resource/share/2000003936。

作者信息：

魏春雨，孙蒙，刘伟，张星昱

(陆军工程大学指挥控制工程学院，江苏南京210007)

原创声明：此内容为AET网站原创，未经授权禁止转载。

基频变声语音鉴伪变声还原时频特征

点击了解订《电子技术应用》杂志送开发板活动

《电子技术应用》射频微波优秀论文集锦

《电子技术应用》各栏目合订本火热下载中

[公开课]基础电子测试测量仪器系列培训

2023年商业航天电子技术应用研讨会精彩回放中