语音识别可能面临的挑战有哪些
2021-09-03 15:43:38
语音识别对话场景复杂,可能面临哪些挑战?
场景一:语音检测不到。
检测不到语音并不意味着麦克风失效,而是获得的声音没有储存在数据集中(耳朵没有坏,只是系统选择性失聪)。多年来,数据集和识别的准确性对语音识别引擎非常重要如果数据积累不足,可以引导用户通过热词(hotword)唤醒语音系统。
场景二:获取语音,但识别失败。
环境原因、系统原因和人为原因都是语音获取失败的原因。
例如:在地铁行驶过程中,噪音、麦克风距离过远,可能导致用户无法获得声音。系统数据集不够大,NLU(自然语言理解)映射关系不完整等系统能力不足,不仅是影响系统理解语音的核心要素之一,也是目前亟待克服的难点。由于人为原因,如发音不准确,儿童自言自语、口吃、语言重复也会影响语音识别。
场景三:用户打断系统语音。
用户打断系统语音,大多是因为用户对系统播报内容不感兴趣,没有解决用户问题。在交互语音应答系统(IVR)中,这是比较常见的。对于主要提供服务的语音系统,当用户需求不确定时,系统可以提供N-best列表,询问用户关注哪些项目。
以单一对话的形式,系统播报冗长会过度损失用户的耐心,例如:
使用者:请导航到动物园。
系统:有广州动物园、长隆野生动物世界、番禺儿童动物园、小南门动物园...
这时候强迫用户听完所有播报后做出选择的体验并不是很好。
相反,使用N-best的交互形式可以节省用户时间,例如:
使用者:请导航到动物园。
系统:广州有这些动物园。你想去哪里?(屏幕显示列表)
场景四:语音中止超时。
语音中止是指系统识别用户完成(完成本轮对话)。若系统设置完成对话的中止时间为1.5秒,即用户停顿1.5秒后判断用户完成,轮到系统给出反馈。如果用户更习惯停止1秒表示会话中止,系统设置的1.5秒将导致加班。
当用户使用语音助手时,语音中止超时会导致用户误以为系统没有反馈。相反,中止时间太短,系统会抢用户。(场面尴尬)
上述两种情况都是由于系统语音端点检测功能设置不合理造成的。微信发送语音可以通过物理按钮控制录音中止时间,但是语音交互中有很多场景需要系统判断我已经完成,比如因为开车时的安全考虑,物理按钮的使用会减少。
目前,通过语音识别引擎设置超时时间是比较理想的。
场景五:无语音超时(NSP)
无语音超时是指没有检测到语音的情况,一般比语音中止超时更长。处理用户不说的方法在不同情况下是有区别的,比如siri用户不说siri自然退出。但是对于关系到生命安全等特别重要的场景,系统的语音不能简单地一走了之,例如,当医院的急救系统接到病人的语音救助信息时。
在新的互联网环境下,语音更多的是作为系统的底层能力期阶段是解决降噪、语音分区等问题,现阶段越来越重视定制唤醒词、定制VPA形象、人声克隆、多触语音、声纹识别、应用激活。
第一阶段,语音具有完全的工具属性,只能部分改善用户体验。然而,在第二阶段,无数的节点聚集在一起,衍生出更多具有服务属性的产品甚至生态,例如:
如今流行的虚拟偶像,终端那头虚拟偶像载歌载舞魅力无限,后面组织高定的粉丝见面会,陪聊,陪长途旅行,也是可以的。
科技文明一直在发展,本来只是声音,后来声影相伴,幻化人形,依附载体,通了人性,想想也很奇妙。