毕业论文
您现在的位置: 语言识别 >> 语言识别前景 >> 正文 >> 正文

破解延时与反馈体验端痛点TWS耳

来源:语言识别 时间:2023/7/25
最好白癜风治疗方法 http://baidianfeng.39.net/a_wh/130904/4250101.html

自取消3.5mm音频接口成为智能手机的创新潮流之后,耳机无线化与之产生的叠加效应使得近几年蓝牙耳机市场的销售额占比连年创出新高,成为当下各体量巨大的互联网公司、手机巨头以及传统耳机大小品牌商们竞相逐利的重要战场。无线化之后,在苹果、谷歌以及亚马逊等业界巨头的强势推动下,历经数年应用探索的耳机端AI语音交互也被越炒越热,被认为是当下TWS耳机跳出音频“固有圈子”,将全新智能听觉体验革命落地到市场的关键一步。“TWS+AI语音”双剑合璧后的智能无线耳机,能够为用户带来更为便捷的手机数据输入、功能调用以及人机交互等高质量使用体验,有望驱动未来几年全球TWS无线耳机市场销量再攀新高。

TWS市场红利期已至无线之后AI语音成“必争之地”

与主打“家庭”场景的智能音箱不同,耳机作为移动场景的绝对刚需,已是当今手机、平板、PC以及VR等各类终端设备的标准配件。TWS耳机由于两耳挂不再需要有线连接,左右2个耳机仅通过蓝牙即可组成立体声系统,更加实用便捷,在经受数年洗礼之后现已跻身为全球耳机市场的爆款产品,为用户端所广泛接受。

以苹果的AirPods为例,该产品在推出后的第一个月就斩获了全美无线耳机网销市场26%的份额,成为苹果公司史上最畅销的配件产品。据最新数据显示,年苹果AirPods总出货量突破了多万,知名分析师郭明錤预测年AirPods的总出货量将增加到至万,出货增长达到90%,年有望达到1亿台的水平。站在整个行业的角度来看,在苹果AirPods系列“洪流”的助推下,年全球TWS耳机市场有望向1.5亿台年出货量、亿美元销售额的宏伟目标迈进。

深圳市原动科技有限公司CEO张海星指出,“经过苹果AirPods、谷歌、三星及华为等TWS无线耳机大厂为期两年多的市场教育,现在用户对于TWS耳机的认知和使用习惯达到了一个比较成熟的水平,TWS智能耳机替代传统非智能有线耳机的时机也已经成熟。年Q4,TWS市场正处于爆发性增长的市场红利期前夕,根据我们从高通、瑞昱等行业源头芯片供应商的数据得知,年全球TWS耳机的总出货量达到万台,年我们预计会是1亿台的水平,且其中60%都将会是具有品牌附加值的高端TWS耳机,TWS将继续蚕食传统有线蓝牙和有线耳机市场的份额。”

或许是嗅到了更大的商机,无线化之后,为TWS耳机增加AI语音智能已成为眼下各主流供货商们纷纷试水的应用创新。由于耳机比智能音箱更具刚需性,无论是海外的Google、微软、亚马逊等AI巨头,还是国内的BAT、科大讯飞、华为、小米,现在都已瞄准TWS耳机市场,将其视为音箱之后AI语音技术落地的“兵家必争之地”。不过,“理想很丰满、现实很骨感”,尽管现在我们能在市面上看到多款据称具备AI语音交互能力的TWS耳机,但从实际用户体验来看效果并不如期。

典型如谷歌的PixelBuds,从官方标称的功能上看,搭载GoogleAssistant后的PixelBuds耳机可以说非常强大,不仅能够做多国语言的实时语音翻译,而且能够为用户读取信息、邮件、新闻和日历提醒事项,同时用户也可以通过语音反馈给耳机自己想做的一些操作,比如选取音乐、切换曲目以及播报热点、查询天气和调用导航地图等等。但在实际使用中却被广为吐槽,据用户端反映PixelBuds存在不少槽点,例如语音误操作频繁、翻译实时性不高、交互延迟、间断以及语音反馈质量等问题。以延时为例,在PixelBuds耳机端,用户想要唤醒GoogleAssistant一般情况下需要长达6s的时间,而如果用户需要提出问题并得到反馈,还需要额外加上2s,这无疑会令绝大多数用户抓狂。

东莞智创音频技术有限公司技术市场经理褚文才在接受本刊采访时表示:“现阶段,其实很多厂商做TWS智能语音耳机最主要的目的还是为了抢占用户资源,为以后做移动端AI服务和AI产品开发做前期铺垫。但站在用户体验的角度来看,其实现在智能TWS耳机真正可通过语音来执行的功能还非常初级且简单,很多语音助手能承包的功能对于用户来说并没什么实际意义,像是解锁手机屏幕、切换音乐曲目、调用导航以及接听电话等这类操作,用户完全可以花1到2秒的时间滑动手机或者通过传统有线耳机按个按钮来完成,这样可能还会更习惯且方便一些。总之就是难以形成独特的差异化优势来让市场买单,所以我们认为语音智能化现在并不足以支撑TWS耳机完全独立出来成为一款能够创造高附加值的智能硬件产品,反而很多颇具实用性的功能用AI语音暂时还实现不了,依然需要通过操作智能手机、智能手表等设备端来实现,依赖性还太强。”

确如褚文才所述,现阶段AI语音能够在耳机端的施展空间还十分有限,毕竟耳机语音智能潮流起步于智能音箱之后,在音箱都尚未实现符合消费者需求的AI语音交互体验前提下,TWS耳机的智能化应用仍需做进一步的深入探索。不过,作为TWS耳机踏入AI时代的关键一步,那些横亘在基础技术层面的问题仍然需要尽早被解决,尤其是“语音唤醒+来回程”延迟以及语音反馈质量这两大突出痛点,其中每一环都会极大影响用户在耳机端的AI语音交互体验,成为当前TWS耳机扩展“真”智能语音能力迈向AI时代的两大劲敌。

语音延时是“头号杀手”由表及里或可逐层“破解”

作为任何一款注重“强体验”AI语音产品的“头号杀手”,语音交互的延迟可以说在如今风靡于世的智能音箱乃至TWS智能语音耳机等各类AI语音终端应用中广泛存在。针对TWS耳机端的语音交互,目前业界在降低延迟上主要围绕两个层面进行优化,其一就是表层的端到端延迟。一般来说,立体音频传输过程中,不同的端端之间由于数据编解码方案、标准以及数据包结构等不同,在端到端传输上的延迟也会存在比较大的差异,有的可能高达几百毫秒,而有的可能才几十毫秒,二者能够提供的应用体验也由此相差甚远。

事实上,端到端传输延迟主要是还是基于音频技术上的问题,但当其加入到耳机端AI语音交互系统和流程中以后,会对整个系统的延时产生影响,褚文才告诉记者:“事实上,传统的TWS耳机端音频延时解决方案在传输层主要采用了支持标准SBC编解码器的A2DP协议以及基于心理声学感知技术的编码算法。但基于这种压缩技术的方案由于采用了帧压缩,其整体延迟时间比较高,其中包括了音频编码器对数据编码和数据发送的累积延迟、数据包接收延迟和数据包顺序编解码延迟,计算下来整个过程可能高达ms至ms。而且,由于比特率设置特点不同,基于这种方案提供的音频质量也存在高度易变的特性,即使采用的是多个同样的编解码器,也无法提供稳定的音频输出。”

“在这方面,我们采用了一种基于ADPCM(AdaptiveDifferentialPulseCodeModulation)原理的解决方案,现在已经能够将延迟降低到50ms以下,基本让用户感受不到延时的存在。”褚文才进一步补充到,“该方案是一种针对16Bit或者更高位数声音波形数据设计的一种有损压缩的算法,能够将声音流中每次采样的16Bit数据以4Bit进行存储,压缩比达到1:4,是获得低空间消耗、高质量声音的非常好的途径。采用这种方案之后,我们的音频传输数据包会变成‘指令词+数据包’的方式,进一步提高数据包的填充效率,而且解码工作是从一开始接收到指令词就已经开始,能够将声音质量得到最大程度的还原,并降低好几倍的延迟时间。”

除上述表层音频延迟以外,由于现阶段TWS耳机自身不具备独立的数据运算能力,仅仅只是扮演着音频声源的角色,智能语音服务均还要通过手机端APP或系统来调取语音,进而传输到云端去做响应和处理。其中,如果网络传输速度差或者中断的话,可以说基本的语音功能都实现不了,信号差的情况下同样也会导致响应和回传等延迟问题。

无论是在智能音箱还是TWS无线耳机等领域,通常在线的智能语音交互非常依赖云端侧的处理,深圳市木瓜电子科技有限公司某技术支持工程师解释到:“设备的前端往往只做声音的采集、回声消除以及噪声抑制等处理之后,通过网络送入云端去做语音识别和处理,处理后的结果又通过网络返回到设备中,这个过程容易产生两个问题,一旦网络出现问题,语音交互功能就可能瘫痪;另外,就算在网络好的情况下,设备的响应速度还是不尽理想,比如前端语音处理时间大约ms、再通过网络端需要ms。不止如此,云端处理约ms,其中还会有延迟再返回,一共加起来可能需要1到2s的时间,尤其是像国内网络不稳定的情况下,时间可能更长。”

因此,现阶段在TWS耳机领域有不少厂商在尝试用本地语音唤醒方案来解决上述问题,以弥补部分因网络不佳或断线的情况下所造成的语音交互进程中断,这在一定程度上优化了TWS耳机智能语音交互中断和延迟问题。类似智能家居领域的本地化语音控制,本地化方案也能通过少许的唤醒词即可在离线情况下通过TWS耳机来实现的音乐的语音控制(切歌、暂停)、接听电话、查看信息等基础功能,可以满足用户的很多基本需求。

不过,在编者看来,本地语音唤醒对于TWS智能耳机来说只能算是一个过渡方案,随着5G高速网络的逐渐普及其市场发展空间可能会逐步缩小,褚文才对此表示赞同,他认为:“5G及万物互联真正大规模普及之前,可能本地化语音处理会在TWS智能耳机这类细分市场会有一定的发展空间,但由于此类方案更多的还是属于控制型而非交互型,并不具备‘真’智能的特性,指令词也十分有限,实际应用中最多只会被用来做一个辅助方案,难以形成市场主导,而且给用户带来的体验感实际也很一般;另一方面,由于耳机属于一种非常小巧的设备,受容量、功耗及数据处理能力等多方限制,要在耳机端做边缘计算的话,对芯片设计也会提出非常大的挑战,这不仅是技术方面的问题,更多的可能还会有成本以及刚需的考量在里面。”

高品质语音反馈“道阻且长”一场软硬件端的“持久战”

如果说语音延时是TWS智能耳机产品体验的“头号杀手”,那么语音反馈质量可能就是产品体验最直接的“形象代言”。众所周知,无论当今任何一款AI语音交互设备,用户最终接收到的语音数据反馈效果都极大程度地依赖于设备及云端语音平台对用户所发出的语音数据接收、识别以及处理的精准度。实际应用场景中,难免会遇到各种环境音、环境波以及语言、语音甚至语意千变万化所致的干扰,纵使是当今全球最接近人类语音能力的GoogleAssistant也并不能达到用户的期许,因此提升TWS智能耳机端的语音反馈质量终将是一场“持久战”。

褚文才对此表示赞同,他强调:“目前的语音交互系统,还仅停留在能够适应它们所得到的训练数据集的水平,而一旦当你把它介绍给它从未听过的东西时,其语音识别的质量就会大幅下降。例如,如果你的训练数据集是会话语音,那么在繁杂的现实环境中你的识别语音效果和最终反馈效果就不会太好,甚至可能很差,而且在有回声、噪音甚至重音等情况下,算法也很容易出错。”

那么,通过积累更多的各类数据集,是否就能够有效解决该问题呢?褚文才并不这么认为:“其实,积累数据也有其不利的一面,虽然一般情况下,表现最好的神经网络还是那些拥有最多数据集的网络。但由于这些数据通常需要在CPU上进行处理,CPU的压力也会随着信息量的增多而增加。今天,可能我们能够在市场上看到不少性能强大的AI芯片,但事实上这些芯片还远未达到能够与移动设备完美集成的程度,很多潜藏的AI能力尚未得到有效挖掘,这就使得实时语音处理这类功能在今天依然无法成为现实。实际上,每次使用GoogleAssistant时,语音信息都还是会被发送到数据中心进行外部处理,然后再发送回用户的手机上。这些计算工作都不是在本地完成的,因为现有的手机都无法存储神经网络处理语音所需的庞大数据,更别说TWS无线耳机这类更小型的设备上了。”

所以,要想做好TWS无线耳机终端侧的语音交互和反馈体验,软件算法和硬件芯片端的共同发力十分必要。褚文才补充到:“国内其实已经有不少比较好的语音算法技术提供商,产品也做的非常不错,但实际应用场景是变幻莫测的,从技术落地的角度来看其实还需要做很多针对场景端的算法优化,就如TWS无线耳机领域除了普遍存在的降噪、滤波等各种需求外,还会存在不同场景的客制化需求,比如运动场景。”而硬件侧,编者认为在现有AI芯片的基础上做更多针对性的语音处理技术集成以及算法适配尤为关键,让芯片即使处在极端复杂的音频环境下,仍然能通过特定且对应的软件算法辅助做好语音交互过程中的各种数据处理,当然这一切还是要以低成本为前提。

总之,智能耳机内置语音助手已成当下全球TWS耳机市场的潮流。不过,从当前的市场需求来看,编者认为业界厂商还需要做到“有的放矢”,因为据相关调查显示,现在国内外几乎大部分人仍然是不习惯对着耳机自言自语的,即使是苹果通过取消手机耳机插孔的强制性方式逐步引导消费者购买Airpods,也是经过了一段相当长时间的市场磨合期。所以,目前厂商还是不要过分抬高消费者对TWS耳机智能化的市场预期的好,可以采取先入为主,即主动为消费者打造刚需的方式,不断磨合软硬件技术,一定程度上解决耳机端AI语音交互痛点之后放开市场,才是让TWS智能耳机市场走上“健康”可持续发展的正道。

转载请注明:http://www.0431gb208.com/sjsbszl/5411.html