语音识别可能面临的挑战有哪些

您的位置：首页 > 芯片视界 > 唯创大事记 >

2021-09-03 15:43:38

语音识别对话场景复杂，可能面临哪些挑战？

场景一:语音检测不到。

检测不到语音并不意味着麦克风失效，而是获得的声音没有储存在数据集中(耳朵没有坏，只是系统选择性失聪)。多年来，数据集和识别的准确性对语音识别引擎非常重要如果数据积累不足，可以引导用户通过热词(hotword)唤醒语音系统。

场景二:获取语音，但识别失败。

环境原因、系统原因和人为原因都是语音获取失败的原因。

例如：在地铁行驶过程中，噪音、麦克风距离过远，可能导致用户无法获得声音。系统数据集不够大，NLU(自然语言理解)映射关系不完整等系统能力不足，不仅是影响系统理解语音的核心要素之一，也是目前亟待克服的难点。由于人为原因，如发音不准确，儿童自言自语、口吃、语言重复也会影响语音识别。

场景三:用户打断系统语音。

用户打断系统语音，大多是因为用户对系统播报内容不感兴趣，没有解决用户问题。在交互语音应答系统(IVR)中，这是比较常见的。对于主要提供服务的语音系统，当用户需求不确定时，系统可以提供N-best列表，询问用户关注哪些项目。

以单一对话的形式，系统播报冗长会过度损失用户的耐心，例如：

使用者：请导航到动物园。

系统:有广州动物园、长隆野生动物世界、番禺儿童动物园、小南门动物园...

这时候强迫用户听完所有播报后做出选择的体验并不是很好。

相反，使用N-best的交互形式可以节省用户时间，例如:

使用者：请导航到动物园。

系统:广州有这些动物园。你想去哪里？(屏幕显示列表)

场景四:语音中止超时。

语音中止是指系统识别用户完成(完成本轮对话)。若系统设置完成对话的中止时间为1.5秒，即用户停顿1.5秒后判断用户完成，轮到系统给出反馈。如果用户更习惯停止1秒表示会话中止，系统设置的1.5秒将导致加班。

当用户使用语音助手时，语音中止超时会导致用户误以为系统没有反馈。相反，中止时间太短，系统会抢用户。(场面尴尬)

上述两种情况都是由于系统语音端点检测功能设置不合理造成的。微信发送语音可以通过物理按钮控制录音中止时间，但是语音交互中有很多场景需要系统判断我已经完成，比如因为开车时的安全考虑，物理按钮的使用会减少。

目前，通过语音识别引擎设置超时时间是比较理想的。

场景五:无语音超时(NSP)

无语音超时是指没有检测到语音的情况，一般比语音中止超时更长。处理用户不说的方法在不同情况下是有区别的，比如siri用户不说siri自然退出。但是对于关系到生命安全等特别重要的场景，系统的语音不能简单地一走了之，例如，当医院的急救系统接到病人的语音救助信息时。

在新的互联网环境下，语音更多的是作为系统的底层能力期阶段是解决降噪、语音分区等问题，现阶段越来越重视定制唤醒词、定制VPA形象、人声克隆、多触语音、声纹识别、应用激活。

第一阶段，语音具有完全的工具属性，只能部分改善用户体验。然而，在第二阶段，无数的节点聚集在一起，衍生出更多具有服务属性的产品甚至生态，例如:

如今流行的虚拟偶像，终端那头虚拟偶像载歌载舞魅力无限，后面组织高定的粉丝见面会，陪聊，陪长途旅行，也是可以的。

科技文明一直在发展，本来只是声音，后来声影相伴，幻化人形，依附载体，通了人性，想想也很奇妙。

唯创电子专业语音识别芯片、语音模块生产厂，可量身定制小家电、智能锁、安防、监控等行业语音方案