一篇看懂 服务机器人语音交互与“三大技术”的因果关系

随着时代的发展和人工智能技术的愈加完善,智能服务机器人已越来越广泛地应用于各行业、各领域当中,如我们随处可见的迎宾机器人、智能讲解机器人、会场机器人等,为缓解劳动力短缺和工作人员的压力起到了重要作用。

当我们与服务机器人进行语音对话时,是否想过,它是依靠什么技术接收到我们的声音,并给予及时、准确地回复的呢?比如说:“今天天气怎么样”?服务机器人马上会说:“今天天气晴朗,气温为10℃-22℃”,伴随有4-5级的东南风……

其实,服务机器人的语音交互原理与我们人类是相似的,实现正常的互动必须满足三个条件:用耳朵听、用大脑理解、用嘴巴回答。服务机器人实现智能交互的“三大技术”分别为语音识别技术(ASR),相当于它的“耳朵”;自然语言处理技术(NLP),相当于它的“大脑”;语音合成技术(TTS),相当于它的“嘴巴”。

当我们提出问题后,智能服务机器人将通过麦克风接收声音,声音将通过语音识别技术(ASR),把声学语音转换为服务机器人能够识别的文字、字母信息。如上图所示,在宁夏博物馆嘈杂的环境中,小笨智能服务机器人可通过语音识别技术(ASR)准确“倾听”游客声音,并转换为其能够识别的语言,为下一步对语义的分析、理解做准备。

小笨智能服务机器人语音识别技术(ASR)采用国际先进算法,通过编码,把语音转换为小笨智能服务机器人可以识别的样式(即数字向量表示),因为声音信号是服务机器人没有办法直接识别的,需要将声音切割成一小段一小段音频,然后每一小段都按一定规则的数字向量来表示。

然后就是解码的过程,即将数字向量拼接为文字、字母的过程。将编码好的向量放置于声学模型和语言模型中,就可得到每一小段对应的文字、字母,然后把翻译出来的文字、字母再经过语言模型,就可组成小笨可识别的单词。

当然,声学模型和语言模型也是个神经网络,是小笨智能服务机器人通过大量的语音和语言数据训练出来的,这也是小笨智能服务机器人可以准确识别各种复杂语音的原因之一……

解码完成后,可识别的单词信息将通过服务机器人的自然语言处理技术(NLP)来准确理解客户意图、情感倾向等信息,此为语音交互中的核心之一,也是最难的模块之一。

自然语言处理技术(NLP)通过语法分析、句法分析、语义理解文本相似度处理、情感倾向分析等技术,具备衡量人们观点和倾向的能力,可精准区分出哪些话属于这个意图,哪些表达不是这一类意图。小笨智能自主研发的自然语言处理技术(NLP)可将接收到的信息进行分析、理解,上图为小笨智能服务机器人在济南能源集团办事大厅,前来办理业务的群众只需要说出需求,即可准确理解群众意图,并从“5G云端大脑”中提取出相对应答案,发出准确的回复指令。

小笨智能服务机器人“5G云端大脑”储存着海量知识库,可支持生活常识、天气、机票等信息查询,并同步企业各类形式的信息,使企业信息通过语音、视频、动图等形式展现出来,满足访客98%以上的日常闲聊或企业业务问答。

当服务机器人发出回复指令后,还需要用“嘴巴”说出来,这就需要使用语音合成技术(TTS),即把回复指令转换为人类能够听懂的声音。如下图,在济南长途汽车总站小笨智能服务机器人“理解”完游客的问题后,于“5G云端大脑”中提取出准确的回复指令,并转换为游客能够理解的语音、视频、图片等形式,让游客轻松掌握出行信息。

语音合成技术(TTS)的工作流程可分为两步,第一步为文本处理,这一步做的事情是把文字或字母指令转化成音素序列,并标出每个音素的起止时间、频率变化等信息,这一步的作用不可小觑,比如拼写相同但读音不同的词的区分、缩写的处理、停顿位置的确定等。

第二步为语音合成,这一步是指根据已经标注好的音素起止时间、频率变化等生成语音,最终通过扬声器准确表达出来。

小笨智能语音合成技术(TTS)技术可对文本实现实时转换,转换时间可以按秒计算,文本输出的语音音律流畅,让听者在听取信息时感觉自然,几乎没有机器语音输出的冷漠与生涩感。

小笨智能强大的自然语言处理能力,可满足在不同应用场景中高效、准确服务,针对不同的应用场景,同步不同的样本数据,所以,小笨智能已服务过的6000+客户中,覆盖政务大厅、法院、商场、机场等全行业场景,满足了不同企业的差异化需求。

从语音识别到智能问答,从意图识别到情感分析,无不显示小笨智能服务机器人在当代对场景深层次服务的执着追求。未来,小笨智能将继续坚持为企业、为社会提供有价值的见解,使传统行业焕发新生力,让我们的生活更方便、更高效。

打开APP阅读更多精彩内容