唯创电子一种远程更新语音技术的介绍
2022-01-15 16:23:00
概述:本文主要介绍一种远程更新语音的技术实现方式,在一些产品应用上,常常会遇到一些需要不停更换语音的场景(如电梯报层器需要更换广告,充电桩设备需要更换提示语等等),市面上常用的一些语音芯片大多都无法直接更换语音内容,因此会存在一些无法避免的痛点,用些产品会使用流媒体功能的芯片去播放,但是往往也伴随着巨大的流量消耗以及网络传输延迟,播放卡顿等现象,本文介绍的这一技术可降低对流量的消耗,下面着重介绍如何实现远程更新语音这一技术。
一、系统组成
1、音频芯片参数介绍
该技术主要通过WiFi/4G模块与一款音频解码芯片(WT2605-24SS)实现,音频解码芯片能够实现语音的更新以及存储,WT2605-24SS这款音频解码芯片的参数如下:
Ø 带有DSP指令的32-bit高性能CPU。
Ø 16 bit DAC音频解码器,高达96dB的SNR。
Ø 支持音频均衡器调整。
Ø 1个SPI。
Ø 1个IR控制器。
Ø 1个SD卡主机控制器。
Ø 1个全速USB2.0 HOST/DEVICE 控制器。
Ø 一个全双工UART,通讯速率高达1Mbps,主要通过该接口与外部器件进行交互。
1.1、DAC参数介绍:
DAC对音频芯片来说是一个很重要的参数,此款芯片具有16bit 的DAC,也就是DAC的转换精度能够达到2的16次方,精度越高,音频播放的还原度也就越高,当然也有24bit DAC的音频芯片,这类芯片的价格比较高,一般用于高端的消费类电子产品,如HIFI音响等。大部分产品使用16bit的DAC已经足够,性价比较高,当然市面上的音频芯片DAC特性参差不齐,有9bit,11bit,13bit的DAC,这类芯片的解码通常都依靠软件解码的方式去处理,一般音频文件大部分都是16bit,将16bit的音频文件通过软解码的方式转为9bit,11bit或13bit的音频播放,效果可想而知。16bit的DAC直接通过硬件解码16bit的音频才能够达到最好的效果。
对于SNR,一般能够达到90db的信噪比已经有不俗的音质表现,此款IC高达96db的SNR,音质将会表现更加出色。
1.2、音频格式介绍:
此款芯片主要支持mp3格式,当然也支持WAV,flac,ape等音频格式播放,一般主要推荐使用mp3格式音频,这类音频资源较多,文件容量较小,大部分场景都能够满足,比较通用,WAV,flac,ape等都是无损音频格式,文件容量都比较大,不太适用于语音更新的场景。
1.3、语音合成介绍:
对于提示语音,一般可以通过文字合成语音的方式处理,如下:
我们将语音下载下来,用Adobe audition软件打开音频看下音频文件信息:
可以看到合成出来的是16k,16bit的mp3音频文件,对于一些应用场景,语音合成直接在服务器端处理即可,这里不做过多介绍。
2、系统框图介绍:
上图介绍了远程语音更新的具体实现方式,主要由4G/WiFi设备连接到服务器,通过服务器把音频数据下发,经过4G/WiFi设备中转传输到WT2605组件进行保存,文件由WT2605组件进行统一管理,更新完成后可直接控制设备下发指令进行播放。这样实现了语音的更新操作,流量也只消耗在音频数据的传输上,相比流媒体播放的方式减少了流量消耗,播放卡顿等现象。
一、系统组成
1、音频芯片参数介绍
该技术主要通过WiFi/4G模块与一款音频解码芯片(WT2605-24SS)实现,音频解码芯片能够实现语音的更新以及存储,WT2605-24SS这款音频解码芯片的参数如下:
Ø 带有DSP指令的32-bit高性能CPU。
Ø 16 bit DAC音频解码器,高达96dB的SNR。
Ø 支持音频均衡器调整。
Ø 1个SPI。
Ø 1个IR控制器。
Ø 1个SD卡主机控制器。
Ø 1个全速USB2.0 HOST/DEVICE 控制器。
Ø 一个全双工UART,通讯速率高达1Mbps,主要通过该接口与外部器件进行交互。
1.1、DAC参数介绍:
DAC对音频芯片来说是一个很重要的参数,此款芯片具有16bit 的DAC,也就是DAC的转换精度能够达到2的16次方,精度越高,音频播放的还原度也就越高,当然也有24bit DAC的音频芯片,这类芯片的价格比较高,一般用于高端的消费类电子产品,如HIFI音响等。大部分产品使用16bit的DAC已经足够,性价比较高,当然市面上的音频芯片DAC特性参差不齐,有9bit,11bit,13bit的DAC,这类芯片的解码通常都依靠软件解码的方式去处理,一般音频文件大部分都是16bit,将16bit的音频文件通过软解码的方式转为9bit,11bit或13bit的音频播放,效果可想而知。16bit的DAC直接通过硬件解码16bit的音频才能够达到最好的效果。
对于SNR,一般能够达到90db的信噪比已经有不俗的音质表现,此款IC高达96db的SNR,音质将会表现更加出色。
1.2、音频格式介绍:
此款芯片主要支持mp3格式,当然也支持WAV,flac,ape等音频格式播放,一般主要推荐使用mp3格式音频,这类音频资源较多,文件容量较小,大部分场景都能够满足,比较通用,WAV,flac,ape等都是无损音频格式,文件容量都比较大,不太适用于语音更新的场景。
1.3、语音合成介绍:
对于提示语音,一般可以通过文字合成语音的方式处理,如下:
我们将语音下载下来,用Adobe audition软件打开音频看下音频文件信息:
可以看到合成出来的是16k,16bit的mp3音频文件,对于一些应用场景,语音合成直接在服务器端处理即可,这里不做过多介绍。
2、系统框图介绍:
上图介绍了远程语音更新的具体实现方式,主要由4G/WiFi设备连接到服务器,通过服务器把音频数据下发,经过4G/WiFi设备中转传输到WT2605组件进行保存,文件由WT2605组件进行统一管理,更新完成后可直接控制设备下发指令进行播放。这样实现了语音的更新操作,流量也只消耗在音频数据的传输上,相比流媒体播放的方式减少了流量消耗,播放卡顿等现象。