谷歌手机输入法可以离线语音识别了模型精

来源：语言识别时间：2024/1/28

选自谷歌博客作者：JohanSchalkwyk机器之心编译今天，谷歌发布了一个端到端的移动端全神经语音识别器，来处理Gboard中的语音输入。该新型语音识别器可内置在手机设备中，离线状态时依然可用。更重要的是，它可以实现字符级实时输出，对用户的语音输入提供快速及时的响应。年，在深度学习技术的帮助下，循环神经网络、卷积神经网络等等。然而，延迟仍然是重中之重：自动语音助手对请求能够提供快速及时的反应，会让人感觉更有帮助。今天，谷歌发布了一个端到端的移动端全神经语音识别器，来处理Gboard中的语音输入。在相关论文《StreamingEnd-to-EndSpeechRecognitionforMobileDevices》中，谷歌研究者展示了一个使用RNNtransducer(RNN-T)技术训练的模型，它非常紧凑，因而可以内置在手机设备中。这意味着不再有网络延迟或spottiness，新的语音识别器一直可用，即使是离线状态也可使用。该模型以字符级运行，因此只要用户说话，它就会按字符输出单词，就像有人在你说话的时候实时打字一样。该视频在识别相同的语音句子时将服务器端语音识别器（左侧面板）与新型移动端识别器（右侧面板）进行对比。GIF来源：AkshayKannan和ElnazSarbar语音识别历史一直以来，语音识别系统包含多个组件：将音频片段（通常为10毫秒帧）映射到音素上的声学模型、将各音素结合在一起形成单词的发音模型，以及表达给定短语似然的语言模型。在早期语音识别系统中，这些组件保持独立优化。年左右，研究人员开始着重训练单一神经网络，直接将输入的音频波形映射到输出语句上。这种序列到序列的方法基于给定音频特征序列生成单词或字素序列，从而学习模型，这促进了「基于注意力」和「倾听-注意-拼写」（listen-attend-spell）模型的发展。虽然这些模型能够极大地保证准确性，但它们通常需要检查整个输入序列，并且在输入的同时无法实现输出，而这又是实时语音转录的必要特征。与此同时，一种名为connectionisttemporalclassification（CTC）的自主技术已经帮助生产级识别器将自身延迟减半。事实证明，这对创建RNN-T架构（最新发布版本采用的架构）来说是很重要的一步，RNN-T可以看作是CTC技术的泛化。RNNtransducerRNN-T是一种不使用注意力机制的序列到序列（sequence-to-sequence）模型。大部分序列到序列模型通常需要处理整个输入序列（在语音识别中即波形）从而生成输出（句子），而RNN-T不一样，它连续处理输入样本，生成输出信号，这非常适合语音听写。在谷歌的实现中，输出信号是字母表中的字符。随着用户说话，RNN-T识别器逐个输出字符，且在合适的地方加上空格。在这个过程中，该识别器还具备反馈循环（feedbackloop），将模型预测的信号再输入到模型中，以预测下一个信号，如下图所示：RNN-T图示，输入语音样本为x，预测信号为y。如上所示，RNN-T通过预测网络（如y_u-1）将预测信号（Softmax层的输出）返回至模型，以确保预测结果基于当前语音样本和之前的输出得出。预测网络和编码器网络是LSTMRNN，联合模型是前馈网络。预测网络由2个LSTM层组成，每个层包括个单元，以及一个维的映射层。编码器网络有8个LSTM层。高效训练此类模型已经非常困难，而在使用谷歌新型训练技术后（该技术将错词率降低了5%，详见论文《MINIMUMWORDERRORRATETRAININGFORATTENTION-BASEDSEQUENCE-TO-SEQUENCEMODELS》），训练变得更加计算密集。为此，谷歌开发了并行实现，这样RNN-T损失函数就可以在谷歌的高性能云TPUv2硬件上大批量高效运行。而这使训练速度实现了3倍加速。离线识别在传统的语音识别引擎中，上述的声学、发音和语言模型被「组合」成一个大型的搜索图。该搜索图的边是用语音单元及其概率来标记的。当语音波形被输入给识别器时，「解码器」会在该图中搜索给定输入信号的最大似然路径，并读取该路径采用的单词序列。通常，解码器假设底层模型的有限状态转换器（FST）表示。然而，虽然有复杂的解码技术，搜索图仍然很大，对谷歌的生产模型来说差不多是2GB。因此该技术无法轻易地在移动手机上部署，而是需要在线连接才能正常工作。为了提高语音识别的有用性，谷歌通过直接在设备上部署新模型，来避免通信网络的延迟和固有的不可靠性。所以，其端到端方法不需要在大型解码器图上进行搜索。相反，解码包括通过单个神经网络进行集束搜索（beamsearch）。谷歌训练的RNN-T模型的准确率能够媲美基于服务器的传统模型，但大小只有MB，本质上更智能地使用参数和更密集地打包信息。但即使是对现在的智能手机来说，MB也是不小的容量了，而在如此大的网络上传播信号会有些慢。谷歌使用其在年开发的参数量化和混合核技术来进一步缩小模型体积，然后使用TensorFlowLite库中的模型优化工具包使其公开可用。模型量化对训练好的浮点模型提供了4倍的压缩，实现了4倍的运行时加速，因此RNN-T在单核上的运行速度比实时语音要快。经过压缩后，最终模型只有80MB大小。谷歌发布的这一新型全神经移动端Gboard语音识别器将首先用于所有使用美式英语的Pixel手机。谷歌希望可以将这项技术应用到更多语言和更多应用领域。更为普及的语音输入此外，今年一月份百度发布了同样

转载请注明：http://www.0431gb208.com/sjszlfa/6995.html

上一篇文章： AI宝宝识人指南深度学习人脸识别

下一篇文章：没有了