编者按:语音电话机器人正越来越多地应用于电销、催收、通知、调研回访等应用场景中,以减少呼叫中心的人力成本。影响语音机器人使用效果的一大因素在于机器人在会话中的声音的逼真度,即语音机器人的发音越接近于人声,用户体验越好,那么影响语音机器人声音逼真度的因素有哪些,对比挑选语音机器人需要关注哪些功能及技术指标呢?本文,企业服务汇将为您展开介绍。

 

➤  语音会话生成方式

《智能电话机器人的核心技术及服务流程》一文中,我们对语音电话机器人的服务流程进行了说明。机器人在对客户会话进行意图识别后可从知识库中匹配回复内容,与在线会话机器人不同的是,语音机器人回复内容为语音内容,这里的语音内容可以是提前录制好的语音文件,也可以是基于文本内容进行语音合成的声音文件。由于录音方式下,是对自然人声的直接播放,因此不存在声音逼真度的问题,提前录音的方式,能够保障声音的流畅自然,但问题在于提前录音工作量大,而且只能用于标准化的会话场景,无法一些满足回复内容涉及个性化变量信息的需求。因此,以语音合成或变量语音合成的方式更为主流。语音合成就会涉及声音是否流程自然、语音语调停顿等是否合理的问题。这与系统的语音合成技术有关,以下我们将为您介绍语音合成中影响声音效果的因素有哪些。

 

➤  语音合成效果

语音合成技术也叫文本转语音技术,即我们常说的TTS技术。TTS技术包括了前端和后端两个部分,前端的作用在于进行文本预处理和语音转录,生成符号语言,后端为合成器,即将前端的符号语言转化为声音信号,进行输出,其中以前端的工作最为核心。前端系统中预处理部分旨在实现文本的规范化和标记化,将原始文本中的数字、缩写等符号转化为可输出的单词;语音转录的过程包括了三部分:1.将文本划分和标记为韵律单位,如短语、子句和句子;2.为每个单词分配语音转录,实现文本到音素或字母到音素的转换;3.前两个阶段生成的音标和韵律信息共同构成了前端输出的符号语言表征,由后端合成器转换成声音信号。主流的语音合成技术主要有以下两类。

▌波形拼接语音合成:指的是基于统计规则的大语料库拼接语音合成系统,好处是音质佳,录音和合成音质差异小,自然度高;缺点是对音库规模大小和制作质量依赖性高,同时也会存在拼接不连续性的问题。对于语音机器人的应用来说,该技术适用于于小词量的语音合成,基于命令行的语音合成方式;适合现有IVR场景姓名、手机号、金额日期等变量。

▌参数语音合成技术:指的是通过建模生成参数合成器,来构建文本序列映射到语音的映射关系,从而实现语音合成。好处是尺寸小,可用于嵌入式设备中,语音自然度好,劣势在于音质不如拼接合成的方式。适用于词汇量需求大,会话场景更复杂,对会话灵活性要求较高的业务场景中。

 

➤  小结

综上,我们可以知道影响语音机器人声音逼真度的因素有语音实现方式是基于录音文件还是语音合成,录音的方式声音逼真度最好,但应用局限,只能满足少数需求场景;语音合成方式下的声音逼真度与系统所采用的语音合成技术有关,主流的语音合成技术有波形拼接语音合成和参数语音合成两类,前者声音效果更好,适用于小词量的语音合成,常用语变量TTS场景;参数语音合成技术音质较差,但灵活性较高,应用范围更广。不过,目前国内绝大多数语音机器人的语音合成技术都是由几大语音技术厂商提供的,以科大讯飞、百度、阿里等几大语音技术厂商的方案为主,很少有企业会自主开发语音合成技术。企业在对比挑选时可通过试听了解各家系统的语音合成效果。

立即注册查看完整版评测报告
马上注册         立即登录