一种语音识别中核心词快速模型优化方法-AET-电子技术应用

0 引言

近年来，随着语音识别技术的逐步成熟，语音识别技术被应用到越来越多的场景中。国家电网客服中心成立人工智能中心，并深入研究语音识别核心技术以及语音在智能客服系统中的应用。当前国网语音系统面临的一个非常关键的问题就是通用语音识别，在文本语料能够覆盖的通用场景识别中，如查天气、问车票等，识别率很高。但是，在国网客服电话语音中，面临大量国网业务特有的核心词汇和说法，如专有名词“电线杆、高压铁塔、绝缘子、金具、瓷瓶、拉线”等，由于其属于特定领域，通用的领域语言模型很难正确识别。因此，如何在保证通用领域高识别率的同时，能够快速通过模型训练和优化来提升新领域、新核心词的识别率，就尤为关键。

目前，对于领域词增强的方法主要是通过优化语言模型来解决，包括两个方法：(1)领域语料获取，即在相关领域通过收集大量的文本语料，训练领域相关的语言模型，以达到对领域词准确的识别；(2)分类语言模型^[1]，即领域词为某一类别词，通过类别替换获取类别的领域语料，训练得到类别语言模型，进而实现对领域词的识别。

但是，在实际应用场景中面临3个问题：(1)领域文本语料很难获取和收集，并且也无法覆盖所有领域的词，很难训练获得一个比较好的领域语言模型；(2)目前使用较多解决领域词识别的是基于类的语言模型，然而这种模型需要提前定义词类，相对复杂，对那些不属于任何一类的词不好建模。领域词具有多样性，无法用类别代替，如国网业务词和专业词种类较多；(3)领域词具有实时性且不断扩充，模型完全重新训练到上线应用会有一定的滞后，不能实时生效。

为了解决语音识别中领域词的多样性和实时性，本文设计了一种基于HCLG领域词权重增强来优化语言模型的方法，并重构语音识别解码流程，如图1所示。首先获取领域内领域词，并对领域词进行发音标注；然后对HCLG中对应领域词进行权重增强，使得解码过程在尽量不影响性能的前提下保证领域词的识别；接着，对语音识别的结果进行后处理，即领域词的检查和替换。本文的方法只依赖领域词表，可以实时添加和扩充，并实时生效。

1 HCLG领域词权重增强

1.1 HCLG

在大规模连续语音识别中，解码过程一般采用加权有限状态转换器(Weighter Finite State Transducer，WFST)^[2]，因此以WFST为框架的大词汇量连续语音识别系统被广泛应用。语音识别的解码过程可以分为语言模型、发音词典规律、上下文相关和隐马尔可夫模型等限制下，寻找一个最有可能的文本序列的过程。

语音识别解码器是在给定输入特征序列下寻找最优的文本次序，寻找次序的过程其实就是在HCLG图上检索的过程。关于HCLG：G表示语言模型，用来解码语法；L是发音词典，输入是音素，输出是词；C表示音素上下文关系；H是隐马尔可夫模型，表示相似状态之间的跳转状态。

1.2 领域词权重增强

上文中介绍了HCLG的结构，在本小节中，将详细描述如何通过修改HCLG的权重来增强领域词的识别效果。本文的修改只是对HCLG中的G语言模型进行修改，可以将HCLG简化表示如图2所示。

本文提出的在HCLG中对领域词进行增强主要是通过构造领域词状态转移图（下文中用S.FST表示），然后将S.FST与现有的HCLG进行合并生成HCLGS。本方法能够通过自定义S.FST中词的权重，增强HCLG中对应词的权重，同时可以共享HCLG中原有词的权重，保证了领域词的识别。

(1)生成领域词S.FST

假设领域词为“国家智能电网”，可以将领域词拆分为已有词表词的组合，即：“国家”、“智能”、“电网”。根据领域词可以生成对应的S.FST，如图3所示。

(2)生成HCLGS

根据上个模块生成的S.FST，将S.FST与HCLG进行合并，如图4所示。合并操作即将原S.FST中的边合并到HCLG对应的边上，在本文例子中即将“国家”和“智能”连接，对应的权重为用户自定义。

2 领域词纠正

上小节中，在HCLG中对领域词的权重进行增强，增加了解码阶段领域词出现的概率。但是，由于要保证语音识别结果的正确性，不能对在HCLG中对领域词增加过大的权重，以免影响整体解码的效果，因此需要对解码后的结果进行领域词增强。在解码过程中，解码识别错误的领域词往往是由于发音相似但是字形不对而导致的，因此，后处理的过程需要匹配到相似发音的领域词，从而进行替换。为了替换的准确性，本文以音素为基本单位进行领域词的替换。后处理主要涉及两部分：领域词检索和发音相似度度量。

在语音识别过程中，解码的效率往往在实际应用中比较重要，因此需要设计一种快速的领域词查找的方法，实现高效的领域词替换。本文提出一种基于音素树的领域词快速查找方法。

2.1 音素检索树

字典树，又称Trie树、前缀树，是一种树形结构，是哈希树的变种，是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串（但不仅限于字符串）^[3]，所以经常被搜索引擎系统用于文本词频统计。它能最大限度地减少无谓的字符串比较，查询效率比哈希表高。本文的音素串查找可以看作是字符串查找，即检索相同的音素串，因此可以利用字典树建立音素检索树，从而进行音素的匹配查找。

首先，需要将领域词转换为音素串，如“电网、断线”转换为音素串则为“d ian1，w ang3；d uan1，x ian4”，将领域词转换为领域词音素串列表，从而转换为对应的音素前缀树，如图5所示。

在图2中，一个单字由两个节点表示，在有汉字表征的节点可以看作一个字或词的结束节点，如节点“ian2 电”表征这个节点是字的结束节点，节点“ang2电网”表征这个节点是词的结束节点。即在字典树种，每个音素标注一个节点，每个字或词表征一个因素的路径，并记录在路径的结束节点。

2.2 音素检索

上一节定义和建立了音素检索树，本模块描述音素树的检索和替换过程主要分两种情况：精确匹配和模糊匹配。

精确匹配为字典树的检索过程，直接进行字符串匹配，如果匹配到对应字或词的节点，即表明查找到对应的音素出串，如输入音素树“h ao3 b a1”（对应汉字为“号吧”），则匹配到”h ao3”,字符串中存在相似的发音，则替换为“好吧”。具体字典树的检索算法：

(1)总是在字典树的根节点开始，且对树的根节点为空。

(2)扫描第一层各个节点获得查找音素的节点，并根据序列的下一个音素选择对应的字数并转到该子树继续检索所在层的各个节点，如果查找到叶子节点，则转到步骤(3)；否则，继续选择对应的子树搜索。

(3)匹配到叶子节点，则获取叶子节点上次数，即完成匹配；若未匹配到叶子节点，则向上追溯最近的字或词节点，匹配成功；若未匹配到任何字或词节点，则匹配失败。

对于模糊匹配，要考虑到发音相似的音素串匹配，比如业务词“电网“对应的发音音素为”d ian1 w ang3”，但是在语音识别的过程中，可能声学模型会输出“d ian1 w ang4”,对应的音调发生问题，但是其对应的还是业务词“电网”。因此，在这种情况下，要考虑发音相似的情况。本文只考虑到音调的相似度，根据经验可得，对于声调3声和4声可认为为同一种音素。在检索时，当匹配音素节点时，相同音素且不同声调的，可认为为同一种发音，即匹配节点成功。当然，可以设计更为复杂的相似度算法进行检索，本文目前没有深入设计。

3 实验

本文实验基于国网客服人工智能中心和清华大学语音语义实验室联合研发的语音识别系统，其中声学模型是由100h的863开放语音数据^[4]和Kaldi^[5]的DNN训练工具训练所得。实验中具体参数：语音特征维度为39维特，音素集使用中文的拼音。对于语言模型，本文采用srilm^[6]工具和新闻数据sogouT^[7]进行训练得到一个领域通用的语言模型，并基于国网客服电话语音特定领域词进一步训练优化。

在测试时，选取国网客服各领域核心词汇列表（如“应急电压、应急电源”等），进行了4组实验：(1)直接使用语音识别系统进行识别；(2)将地名词进行HCLG加强，进行语音识别；(3)将地名词进行语音识别后纠正；(4)使用HCLG增强和识别后纠正。具体实验结果如表1所示。

通过实验可以看出，基于HCLG增强的模型优化和基于后处理的核心词纠正都能显著提高领域词的识别效果，相对错误率下降(11.54-8.18)/11.54=29.1%。

4 结论

本文提出了一种针对不同领域核心词的模型优化方法，通过对HCLG的增强以及识别后处理优化，该方法能够快速全面地提高领域词的识别准确率。这种方法能够快速且实时地增加领域词，以适应语音识别在不同领域场景的使用。同时，该方法克服了之前限定类别领域词识别的限制，可以更加灵活地添加领域词，减少了领域词添加的复杂性。本文提出的领域词增强的方法可成功解决国网客服的电话语音的核心词识别优化问题。

参考文献

[1] 杨林国.词类扩充方法在语音识别中的应用[J].电子技术应用，2014，40(6)：123-125.

[2] MOHRI M，PEREIRA F，RILEY M.Weighted finite-state transducers in speech recognition[J].Computer Speech & Language，2002，16(1)：69-88.

[3] 孙芳媛.基于倒排索引和字典树的站内搜索引擎的设计与实现[D].哈尔滨：哈尔滨工业大学，2016.

[4] 李爱军，王天庆，殷治纲.863语音识别语音语料库RASC863——四大方言普通话语音库[C].第七届全国人机语音通讯学术会议(NCMMSC7)论文集，2003：274-277.

[5] POVEY D，GHOSHAL A，BOULIANNE G，et al.The Kaldi speech recognition toolkit[C].IEEE 2011 Workshop on Automatic Speech Recognition and Understanding.IEEE Signal Processing Society，2011.

[6] STOLCKE A.SRILM-an extensible language modeling toolkit[C].Seventh International Conference on Spoken Language Processing，2002.

[7] Liu Yiqun，Chen Fei，Kong Weize，et al.Identifying Web spam with the wisdom of the crowds[J].ACM Transaction on the Web，2012，6(1)：1-30.

作者信息:

杨维，张才俊，马永波

（国家电网客服中心信息技术部，天津300000）

原创声明：此内容为AET网站原创，未经授权禁止转载。

设计应用

一种语音识别中核心词快速模型优化方法