进击的语音识别

来源：语言识别时间：2022/5/11

上期，我们为大家介绍了《钢铁侠》中的贾维斯是如何被唤醒并能识别托尼的各项指令（点“阅读原文”即可阅读上期内容）。然而，作为一枚称职的AI，能识别一些基本词句显然是远远不够地，它必须具备更多进击的技能。

比如，对于主人的口音啦、口头禅啦以及时不时蹦出的专业词汇它必须要懂；

比如，如果主人是本山大爷、德纲大叔、佟掌柜…那么东北话天津话陕西话等各地方言必须得懂；

再比如，如果网络突然歇菜，它可不能歇菜，依然要保持运作。

那么，这些进击的语音识别技术现在是否已经实现，又是如何实现的呢？科大讯飞将继续为大家一一解答！

个性化识别指的是语音识别系统具备自动学习并适应用户使用习惯的能力，你用的越多，它越懂你。

一般来说，个性化识别包括发音和语言两方面。其中发音个性化主要是指系统对用户语速、口音等发音习惯的学习，而语言个性化主要是指系统可以对用户的特定词汇（例如通讯录、口头禅等）具备更好的辨识性。

想像一下，如果有一天，当机器遇到飞一般语速的中国好舌头——华少，它能跟上节奏，准确识别吗？

答案是，当然可以的！

说话速度较快，协同发音比较明显，传统识别系统的准确性一般会有下降趋势。往往说话速度越快，识别效果下降得越明显。

科大讯飞的语音识别系统一方面针对语速等发音现象设计了自动检测及规整算法，以降低其多变性对识别效果的影响；另一方面，通过“基于说话人编码和i-vector的深度神经网络自适应算法”，以完全不需要人工干预的方式在产品中解决了深度学习框架下的说话人自适应问题。在加入这些发音个性化技术以后，即使在语速特别快的情况下，讯飞也能准确的识别。

不信？那就赶快对着讯飞输入法来一段快语音的识别，赛一赛！

除了上面的发音个性化以外，我们还可以实现语言个性化，这项技术更加复杂，当然也更加实用。

语言个性化指系统能针对每个人的兴趣点、知识背景等来进行个性化语言模型建模，使系统的知识背景与说者一致，这样才能准确识别出用户个性化的词汇内容，让语音识别变得更加聪明更懂用户。

这里以最常用的“通讯录人名个性化”为例。当托尼说到“贾维斯，我晚上要和小辣椒一起吃饭，帮我在附近定个座”时，这里的“贾维斯”和“小辣椒”都属于托尼的“专属”词汇，通用的语言模型一般是无法完成对其的识别的，尤其在自由的上下文中识别出这些专属名词更是难上加难。

那么科大讯飞是如何解决这项难题的呢？

我们在方案上需要应用上“类别语言模型建模”和“动态语言模型建模”等核心技术。考虑到语音识别对实时响应的高要求，我们需要在极短的时间内，利用通用的超大规模静态语言模型和用户的个性化信息（例如通讯录人名、专有词库等）实时构建出动态的、超大规模个性化语言模型并完成解码过程，这些对技术的要求都是极高。打个比方，这个过程就好像是“在全世界几十亿人中瞬间找到所有穿粉红色衣服的、自然卷的、穿耐克鞋的黑衣人”。

（图：语言个性化方案）

目前，讯飞输入法已经集成了这项技术，只要在语音设置页面中打开“个性化语音”和“优化联系人识别”选项即可体验该项神奇的功能喽！后续讯飞还会推出更多既有意思又使用的个性化功能。让更多人享受到语音输入带来的无限乐趣～

要做一个称职的“中国好AI”，只听得懂普通话必须是万万不够的。它还得听懂方言，这样无论是少数民族同胞还是让普通话不标zun的人们也能无障碍使用。

那么让机器懂方言，怎么实现呢？

这就要从数据和技术方面说起了。

数据方面，讯飞的普通话水平测试覆盖全国31个省，超过万考生参加了测试，他们的发音真实反映了全国各地的方言发音特色，依托这些海量普通话水平测试的数据，我们对全国各地的方言现象，都持续通过自动挖掘并配合人工辅助的方式积累了一套基于知识或规则的资源。

讯飞语音云自年发布至今，用户量已经突破5亿，通过结合基于PSC数据训练的模型对这些真实数据进行自动分析和分类，可以对各地区方言数据产生很好的补充，进一步发挥迭代优化的作用。

在技术方面，我们分别针对全国八大方言区各自的特性来构建独立的方言识别系统。考虑到方言训练数据量相对于普通话数据明显稀少，我们采用独特的“受限多方言混合深度神经网络”方案来完成相应模型的构建。方言资源的累积过程和方言模型训练过程详见下图。

（图：方言识别系统构建流程图）

这样，机器就能听懂方言啦。目前，科大讯飞已经对外发布多种方言识别并成功应用在讯飞输入法中。全国各地的朋友，还不快来试一试？

想想未来有一天，你身边会有个用各地方言跟你随意唠嗑的AI，是不是也是醉了呢~

拥有了强大的识别技能之后，随时随地都能使用也是必须的！可不能网络歇菜它也跟着歇菜。

在没有网络环境情况下也能进行识别，这项技术便是我们所说的“离线识别”。

要做到“离线识别”在技术上存在很大难度。我们知道，要实现精准的语音识别，超强的计算能力和超大的内存空间是必需品，以我们云计算方式的语音识别为例，运算服务器需要搭载几十核心的CPU以及上百G的内存，这样的配置在我们智能终端上是可望不可及的。在智能终端区区几十M可用内存以及双核甚至单核的计算能力的基础上，要想获得不错的识别效果，这真是一个巨大的挑战！

科大讯飞采用了创新的模型压缩技术及帧半同步解码方案，推出了达实用的离线语音听写引擎，将近乎不可能变成了可能.在常用领域识别准确率接近云端效果，成为语音云听写服务的有效补充，是目前业界识别效果较好的离线听写引擎。

方言识别、个性化识别、离线语音都是讯飞自主研发的特色语音识别技术，通过这种进击的语音识别，机器才能更懂你。

未来，我们会继续扎根于语音技术，在人工智能领域持续创新，掌握更多“进击”的技能，通过技术进步和产品创新打造最好的用户语音交互体验，做出最懂你的语音识别系统，让人类拥有智能机器管家的梦想早日实现！

随手掌握讯飞发展动态，实时了解讯飞人讯飞事，尽在科大讯飞官方

转载请注明：http://www.0431gb208.com/sjszlff/251.html

上一篇文章：语音识别基础一语音是什么

下一篇文章：没有了