大数据文摘出品
来源:ai.googleblog
编译:周素云、魏子敏
识别延迟一直是设备端语音识别技术需要解决的重大问题,谷歌手机今天更新了手机端的语音识别技术——Gboard,重磅推出了一款端到端、全神经、基于设备的语音识别器,支持Gboard中的语音输入。通过谷歌最新的(RNN-T)技术训练的模型,该模型精度超过CTC,并且只有80M,可直接在设备上运行。
年,语音识别研究获得新突破——深度学习可以提高识别的准确性,最早探索这项技术的产品便是谷歌语音搜索了。这标志这语音识别革命的开始,从深层神经网络(DNNs)到递归神经网络(RNNs),长短期记忆网络(LSTMs),卷积网络(CNNs)等等,新的架构和开发质量每年都在快速提升。在发展过程中,识别延迟仍然是攻关难点。
今天,谷歌官方宣布,推出一款端到端、全神经、基于设备的语音识别器,支持Gboard中的语音输入。
在谷歌最近的论文“移动设备的流媒体端到端语音识别”中,提出了一种使用RNN传感器(RNN-T)技术训练的模型,并且可以在手机上实现。这意味着即使你的手机网络延迟,甚至处于离线状态,新的识别器也始终可用。
谷歌论文下载链接:
转载请注明:http://www.0431gb208.com/sjszjzl/316.html