外呼机器人具有哪些挑战和风险呢?

锋之云科技

共 819字,需浏览 2分钟

 ·

2022-02-09 17:34

如今大家对于机器人都是很熟悉的,简单一点来说机器人就是自动执行工作的机器装置。它既可以接受人类指挥,又可以运行预先编排的程序的。而大家对于外呼机器人都是否熟悉呢?其具有哪些挑战和风险呢?



首先是语音识别技术的挑战,前面说到实验室环境下语音识别准确率已经从2013年的87%提高到了2017年的97%,而在实际环境中,这个数字会降低到85%左右,因为实际环境中有大量的噪音、口音、声源远近等问题。在外呼机器人这个领域,短语音识别是一个难点,因为在缺少更多上下文信息的时候,语音识别很难确定你发的音和对应的字之间的关系,中文更是如此,因为中文是一个同音不同字的语言,还有音调的变化,比如我发一个音“lao shi” ,这在不同的语境下,可能代表这是一个教书育人的职业,在另外的语境下,可能代表这个人的性格很老实。

来自于技术方面的第二个挑战是多轮对话,人的自然语言从来都是含糊不清的,特别依赖上下文关系。比如说“我想订一个房间”, “什么位置?”, “中关村附近”,“什么时间?”,“周六”… …这个例子里面,关于订房间的信息是散落在多轮对话之间的。如何综合全面考虑上下文信息一直是学术界的一项挑战。

第三,人类的对话行为模型非常复杂。因为在外呼机器人场景下,人们期待的是和另一个人之间的交流而不是一台机器。研究显示,人们在和机器人对话的时候,会自然的放慢语速,发音会更清晰,也会用更加配合机器人的句式来交互。但是在和人沟通的场景中,人们的发音或更含糊,会在句子中省略很多字词,也会在句子中突然修改前面的对话信息,这些都给语音识别,语义理解造成了极大的困难。

最后,我们目前的外呼机器人大部分都还是播放提前录音,为了实现真正的人机语音对话系统,我们需要让机器能发出人的声音,这就是语音合成技术。但是要合成出人自然对话中的抑扬顿挫,并且骗过人是一件非常困难的事情,人的耳朵对于音频的敏感程度远超过人眼对图像的敏感程度,这也让语音合成这件事情的难度更高。

浏览 8
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报