Google云计算语音转文本服务采用Co

来源：语言识别时间：2024/9/9

Google云计算在其语音转文本API（Speech-to-TextAPI，STT）采用Conformer新模型，以提高STT所支持23种语言和61种区域口音的语音识别准确性。新模型可能与现有模型的功能略有不同，不过皆提供相同的稳定性和支持。

Google提到，这是一项重大技术改进，使用当前最新的机器学习技术，是他们在语音识别神经串行到串行模型研究8年来的阶段性成果，其经过大量研究和优化，使模型能够适用于不同的用例、噪音环境，并提供最佳的结果。

Google解释了新模型与当前模型的不同，过去自动语音识别技术都是基于单独的声音、发音和语言模型，这三个单独的组件会独立训练，最后组装在一起进行语音识别，而Conformer新模型，则是单一神经网络。

与过去需要组合三个独立模型的方法不同，Conformer模型能够更有效地使用模型参数，由于这个架构是带有卷积层（ConvolutionLayer）的Transformer模型，因此才称为Conformer，该架构能够捕捉语音信号中的区域和全局资讯。

开发者现在使用STTAPI可立即看到新模型所带来的品质改进，虽然用户仍然可以通过调整模型，来改进模型性能，但是Conformer新模型不需要用户进行任何动作，就能明显感觉品质提升。

新模型支持更多不同类型的语音、噪音和声音条件，使得用户可以将语音技术嵌入应用程序中，并在更多环境产生更准确的输出。智能应用程序的用户，将可以自然地用更长的句子，跟应用程序交互，不需要担心语音能否被准确截取。

用户只要在使用STTAPI时，添加新标签latestlong和latestshort，便可以访问最新的Conformer模型，latestlong针对视频等应用设计，可以处理长篇语音，而latestshort则是用于命令或是短语上，能提供更好地品质和低延迟。