26年专注语音芯片研发

语音识别可能面临的挑战有哪些

2021-09-03 15:43:38

语音识别对话场景复杂,可能面临哪些挑战?

场景一:语音检测不到。

检测不到语音并不意味着麦克风失效,而是获得的声音没有储存在数据集中(耳朵没有坏,只是系统选择性失聪)。多年来,数据集和识别的准确性对语音识别引擎非常重要如果数据积累不足,可以引导用户通过热词(hotword)唤醒语音系统。

场景二:获取语音,但识别失败。

环境原因、系统原因和人为原因都是语音获取失败的原因。

例如:在地铁行驶过程中,噪音、麦克风距离过远,可能导致用户无法获得声音。系统数据集不够大,NLU(自然语言理解)映射关系不完整等系统能力不足,不仅是影响系统理解语音的核心要素之一,也是目前亟待克服的难点。由于人为原因,如发音不准确,儿童自言自语、口吃、语言重复也会影响语音识别。

场景三:用户打断系统语音。

用户打断系统语音,大多是因为用户对系统播报内容不感兴趣,没有解决用户问题。在交互语音应答系统(IVR)中,这是比较常见的。对于主要提供服务的语音系统,当用户需求不确定时,系统可以提供N-best列表,询问用户关注哪些项目。

以单一对话的形式,系统播报冗长会过度损失用户的耐心,例如:

使用者:请导航到动物园。

系统:有广州动物园、长隆野生动物世界、番禺儿童动物园、小南门动物园...

这时候强迫用户听完所有播报后做出选择的体验并不是很好。

相反,使用N-best的交互形式可以节省用户时间,例如:

使用者:请导航到动物园。

系统:广州有这些动物园。你想去哪里?(屏幕显示列表)

场景四:语音中止超时。

语音中止是指系统识别用户完成(完成本轮对话)。若系统设置完成对话的中止时间为1.5秒,即用户停顿1.5秒后判断用户完成,轮到系统给出反馈。如果用户更习惯停止1秒表示会话中止,系统设置的1.5秒将导致加班。

当用户使用语音助手时,语音中止超时会导致用户误以为系统没有反馈。相反,中止时间太短,系统会抢用户。(场面尴尬)

上述两种情况都是由于系统语音端点检测功能设置不合理造成的。微信发送语音可以通过物理按钮控制录音中止时间,但是语音交互中有很多场景需要系统判断我已经完成,比如因为开车时的安全考虑,物理按钮的使用会减少。

目前,通过语音识别引擎设置超时时间是比较理想的。


场景五:无语音超时(NSP)

无语音超时是指没有检测到语音的情况,一般比语音中止超时更长。处理用户不说的方法在不同情况下是有区别的,比如siri用户不说siri自然退出。但是对于关系到生命安全等特别重要的场景,系统的语音不能简单地一走了之,例如,当医院的急救系统接到病人的语音救助信息时。

在新的互联网环境下,语音更多的是作为系统的底层能力期阶段是解决降噪、语音分区等问题,现阶段越来越重视定制唤醒词、定制VPA形象、人声克隆、多触语音、声纹识别、应用激活。

第一阶段,语音具有完全的工具属性,只能部分改善用户体验。然而,在第二阶段,无数的节点聚集在一起,衍生出更多具有服务属性的产品甚至生态,例如:

如今流行的虚拟偶像,终端那头虚拟偶像载歌载舞魅力无限,后面组织高定的粉丝见面会,陪聊,陪长途旅行,也是可以的。

科技文明一直在发展,本来只是声音,后来声影相伴,幻化人形,依附载体,通了人性,想想也很奇妙。

唯创电子专业语音识别芯片语音模块生产厂,可量身定制小家电、智能锁、安防、监控等行业语音方案

  • 联系方式

    308040936@qq.com

    138-0273-1296

  • 公司地址

    广州市花都区新华街天贵大厦A座704-708室

  • 138-0273-1296

  • 扫一扫加微信
    版权所有©2016-2020 广州唯创电子有限公司
    网站地图     技术支持:九度网

    扫码添加微信

    返回顶部小火箭