Google改良语音过滤模型,提升设备上

来源：语言识别时间：2024/12/22

Google发布了设备上轻量级语音过滤模型VoiceFilter-Lite，可用于背景音嘈杂，或是多人环境的语音处理应用，使得即便在没有互联网连接，也能让用户在极为吵闹的地方，访问语音助理功能。通过语音辅助技术，可以让用户利用声音命令，与设备进行交互，而这依赖精确的语音识别，才能让语音助理服务特定用户，Google提到，在许多实际的场景中，语音识别的输入音频，通常含有重叠的语音，而这对许多语音识别算法来说，是一个巨大的挑战。因此在年的时候，Google发展出了VoiceFilter系统，让用户可以注册自己的声音，使得语音助理能够提供个性化的服务。不过，虽然VoiceFilter方法能够精确地区分目标用户的声音，而且比过去的方法，提供更好的失真比（SDR），但缺点在于该模型太大，在设备上执行，受到了CPU、内存的限制，同时也需要考量电量消耗以及延迟的问题，因此现在Google对VoiceFilter作出改进，发展出轻量版的VoiceFilter-Lite，以便将模型放到设备上执行。Google精心设计了VoiceFilter-Lite，使其能适应设备上的应用，VoiceFilter-Lite能够即时过滤掉非目标说话者的声音，并在Google使用TensorFlowLite函数库，对神经网络进行量化后，模型的大小仅为2.2MB，很适合集成进大多数设备上应用程序。VoiceFilter-Lite是一个即插即用的模型，当用户没有注册声音，应用程序可以简单地跳过VoiceFilter-Lite，直接进行后续的处理，而这也代表，开发者可以分开训练和更新，语音识别模型还有VoiceFilter-Lite模型，大幅降低部署过程的复杂度。无论是在安静的场景，或是嘈杂的场景，VoiceFilter-Lite都能够良好地处理单一说话者的语音，而在语音重叠的场景，VoiceFilter-Lite能够改善单词错误率25.1%，而在像是家中智能音响的使用场景，其回音与多人声重叠的环境，使得语音识别更具挑战，而VoiceFilter-Lite也能改善单词错误率达14.7%。

转载请注明：http://www.0431gb208.com/sjszyzl/8152.html

上一篇文章：谷歌AI盛宴语音识别加速推进驱动人机交互

下一篇文章：没有了