设计应用

面向多说话人分离的深度学习麦克风阵列语音增强

作者:张家扬1,2,童 峰1,2,3,陈东升1,2,3,黄惠祥1,2
发布日期:2022-05-16
来源:2022年电子技术应用第5期

0 引言

    随着人与机器之间的语言交互逐渐频繁,更需要考虑噪声、混响和其他说话人的干扰等引起语音信号质量下降的因素对语音识别造成的影响,语音增强技术[1]可以有效地从受干扰的信号中提取纯净的语音,而麦克风阵列比起单个麦克风可以获取更多的语音信息和时空特征,因而麦克风阵列语音增强技术被广泛应用在智能家居、车载系统和音(视)频会议等领域。

    麦克风阵列对信号进行空间滤波,可以增强期望方向上的信号并抑制方向性噪声,实现语音增强。传统麦阵语音增强算法;如形成固定波束的滤波累加波束形成算法(Filter-and-Sum Beamforming,FSB)[2],通过一定长度的滤波器系数对多通道信号进行滤波累加,实现了频率无关的空间响应特性,具有低复杂度、硬件容易实现等优点,但是对于具有方向性的噪声效果不佳。




本文详细内容请下载:http://www.chinaaet.com/resource/share/2000004272




作者信息:

张家扬1,2,童  峰1,2,3,陈东升1,2,3,黄惠祥1,2

(1.厦门大学 水声通信与海洋信息技术教育部重点实验室,福建 厦门361005;

2.厦门大学 海洋与地球学院,福建 厦门361005;3.厦门大学深圳研究院,广东 深圳518000)




wd.jpg

此内容为AET网站原创,未经授权禁止转载。
深度学习 麦克风阵列 波束形成 LSTM