语音识别技术_语音识别原理_语音识别技术原理

发布时间： 2019-03-06

编者按：对于需要引入语音机器人的企业来说，机器人的语音识别能力是企业需要关注的重点，企业怎么去判断语音机器人的语音识别技术水平？本文从语音识别技术的发展和语音识别能力判断进行介绍。

➤ 语音识别技术的发展

语音识别技术，又名自动语音识别，指的是将人语音中的词汇内容转换为计算机可读的“语言”，即二进制编码、按键或字符序列。语音识别技术费研究起始于20世纪初，最大的突破是隐马尔可夫模型，这一模型使得语音识别技术可以应用于商业。

语音识别技术进行语音识别时，首先将人的音频转换为波形图，通过分帧等处理后，与基本的语言单元“音素”等进行比对，获取到大量的小数据，这种情况下一个字母可能对应成百上千个状态，无法获得最终准确的表达，隐马尔可夫模型通过设定一个状态的限定网格解决了这个问题，将获取的数据状态与网格中的数据状态进行比对得到准确的表达，但是这也带来一个问题，必须有这么一个网格，包含所有需要对比识别的语音信息。这就要求需要有大量优质的数据对机器人进行训练，才能使机器人具备较好的语音识别能力。

➤ 语音识别能力的判断

不同语音识别机器人的基础技术是相似的，但是在实际应用中的表现可能出现多种情况。以目前的语音识别技术考虑，语音识别机器人可以从机器人对输入语音的连续度要求和对语音词汇量的限制两方面衡量。

从说话的连续程度方面看，可以将语音识别机器人分为3类：

1、孤立词语音识别机器人：孤立词识别机器人要求用户在输入每个词后要停顿，不然识别就会出现问题；

2、连接词语音识别机器人：连接词输入机器人支持用户连续性地说话，可以出现连音，但是要求对每个字都清楚发音；

3、连续语音识别机器人：连续语音识别机器人支持用户自然流利地进行语音的连续输入，出现大量连音和变音时仍然可以识别。

从语音识别机器人对输入词汇量的限制上也可以将语音识别机器人分为3类：

1、小词汇量语音识别机器人：小词汇量的语音识别机器人通常可以支持几十个词的准确识别；

2、中等词汇量语音识别机器人：中等词汇量的语音识别机器人一般支持几百个词到上千个词的识别；

3、大词汇量语音识别机器人：大词汇量的语音识别机器人能支持几千到几万个词的语音识别。

目前国内语音识别技术支持连接词语音识别和中等词汇量语音识别，还无法对自然流畅的大量表达进行准确识别。

➤ 小结

现阶段语音识别技术的使用依赖于隐马尔可夫模型，这就导致企业使用的语音识别机器人需要大量的数据进行训练，所以只有在企业或者供应商有行业相关数据进行训练的情况下，语音机器人才会比较有价值。目前国内语音识别技术的应用处在其发展过程中的一个中等阶段，不适合过于复杂的场景，所以语音机器人更适宜用于单独的业务线，另外出于成本的考虑，企业可以根据需求选择能力匹配业务需求的语音机器人。