设计应用

基于生成对抗网络合成噪声的语音增强方法研究

作者:夏 鼎,徐文涛
发布日期:2020-11-16
来源:2020年电子技术应用第11期

0 引言

    在语音信号处理的过程中,背景噪声和环境干扰严重影响了信号处理的可靠性,需要通过语音增强处理方法去除信号中的噪声干扰,改善含噪语音的质量。因此,语音增强技术在语音识别、听力辅助和语音通信等领域中具有非常重要的作用。

    传统的语音增强方法有谱减法[1]、维纳滤波[2-3]以及之后出现的基于统计模型的处理方法[4]等,这些方法都是基于已知噪声的统计特性来进行建模,得到噪声的功率谱信息,对含噪语音信号进行降噪处理,以估计纯净语音信号。这些传统方法的准确性严重依赖数据特征工程处理方法和数据类型,对于未知的噪声干扰,其适应能力较差[5]。随着人工智能的发展,深度神经网络被应用于语音增强领域[6]。利用深层神经网络的特征学习,可以将含噪语音映射为纯净语音,达到去除噪声的目的。为了提高深度神经网络进行语音增强方法的泛化能力,最直接的手段是进行数据增强,包括增加数据的多样性、扩大数据集等。实验表明,在深度神经网络训练的过程中采用更多种类的噪声数据,语音信噪比质量可以显著提高[7-8]。但是,真实的噪声数据获取难度较大,成本较高,这限制了网络去噪能力的适用性。针对这一问题,本文基于生成对抗网络GAN设计了一种训练数据集增强方法,通过生成虚拟噪声,扩充训练集中噪声数据的类型和数量,提高模型的泛化能力。




本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003050




作者信息:

夏  鼎,徐文涛

(南京航空航天大学 理学院,江苏 南京211106)

此内容为AET网站原创,未经授权禁止转载。
语音增强 生成对抗网络 数据增强