万根顺攻关语音识别技术

来源：语言识别时间：2024/9/1

经济观察报记者周应梅年，科大讯飞发布全球首个中文语音识别DNN系统，将语音识别准确率提升到80%，10年里语音识别技术突飞猛进，不断拓宽应用场景。拿现在最常见的“实时转写”功能来说，这在7年前是难以实现的。

年，25岁的万根顺加入科大讯飞，彼时他还是一个零基础的新人，这些年则见证了一代又一代语音识别技术的革新，他也从参与者变成主导者。

万根顺形容自己刚进科大讯飞时是菜鸟。7年时间里，他的成长稳扎稳打，如今他已成为科大讯飞语音识别条线研究负责人。从参与攻关科大讯飞原创的DFCNN语音识别方案，到负责起新一代语音识别技术的研发落地。

保持语音识别技术领先是每个讯飞人的信念，这种精神也在万根顺这样年轻的技术骨干中得到传承。

新人参与技术攻关

万根顺刚到讯飞研究院上班的第一天，就看到员工们在办公室激烈讨论，谁也不让谁，这个氛围一度让他很紧张，因此一直刻在他的脑海里。后来这样的场景不断发生，他才知道这就是讯飞研究院同事们工作的方式。

年江苏大学研究生毕业后，万根顺加入了讯飞研究院语音识别转写组，负责基础算法研究。此前他的专业方向是图像研究，进入语音识别领域是从零开始。

年初，刚入职半年，万根顺就加入了讯飞DFCNN语音识别方案项目攻关。作为一个新人能有机会参与技术攻关，让万根顺倍感珍惜。这次经历也成为他职业生涯最重要的起点。

科大讯飞原创的DFCNN语音识别方案在年下半年正式推出，在过往RNN识别系统基础上整体效果提升了15%以上，在语音识别效率、口语化处理、噪音降噪等功能上有较大的改善。

首次参与项目攻关，万根顺见证了新系统的诞生，更体会到了科大讯飞的同事们在核心技术保持国际领先的追求。

年开始，科大讯飞是中国首批开展深度神经网络语音识别技术研究的企业之一，年首个中文语音识别方案DNN上线，年新的RNN语音识别方案开启全面升级，年推出DFCNN语音识别方案。年至今，科大语音识别方案又经过了多次迭代，保持每年至少30%的效果提升。

在DFCNN语音识别方案出现之前，业界最好的语音识别方案是双向RNN语音识别，不过这个方案的算法训练比较复杂，识别结果所需时间很长，难以在工业界推广。在有噪音或者更复杂一些的场景，使用RNN语音识别方案会存在识别效果较差的情况。而像今天这样的实时识别转文字，更是难以想象。

攻关技术期间，团队每天的工作状态与万根顺第一天进办公室的场景一样，常常伴随着激烈的讨论，为共同的目标集思广益。他说，这是讯飞研究院同事们工作的态度，有想法直接讲，不论你是新人，还是技术大牛、专家，都可以积极参与讨论。

过去科大讯飞就将语音识别和深度学习结合，在训练策略上有多年积累。在此基础上，DFCNN语音识别方案攻关时间仅花了半年，投入不到10个人的团队。另外，借鉴成熟领域的模型也成为突破点。科大讯飞在攻关DFCNN语音识别方案时，就借鉴了图像领域的算法模型，将语音信息转化为一张张语谱图。这很大程度上减少了输入信息损失。

也是在这次攻关中，多次的实验下来，万根顺掌握了精准的分析能力。在这个项目中，万根顺还见识到了行业前辈们“敢想敢做”的态度和专业能力。“当时前辈们提出了一些设计方法，在几年之后变成了一个主流。他们几年前就能想到几年后可能的发展趋势，后续对我触动很深。”“要大胆地去想，不要有所顾忌，只要能说服你自己的，坚持做下去一定能够有所收获。”这样的理念在万根顺心里树立起来了。

一位技术骨干的成长

万根顺研究语音识别时喜欢分析数据。他会花时间仔细听音频，去标注语音识别错误的一些词或者内容，找到识别不出来的原因。此前“因5毛钱”这个句子识别错误就是他这样发现的，当时他发现语音识别模型会把“因5毛钱”中的“因5毛”，识别为“鹦鹉毛”，通过这样细微的数据，找规律后再去改进。

找到问题后，改进方式是在语音识别系统中加一些韵律信息，“因5毛钱”和“鹦鹉毛”两句语音的停顿方式是不一样的。通过小细节，可以解决研究工作中的实际问题。

年，万根顺作为技术负责人，实现了DFCNN语音识别方案基础上持续升级，一年里进行了多个版本的迭代升级。

除了参与攻关DFCNN语音识别方案外，对万根顺来讲，职业生涯中比较重要的第二件事情是，年开始主导新一代语音识别框架的落地。

年科大讯飞首个基于ED框架的语音识别方案落地。新的识别方案在输入法、讯飞听见、办公本、录音笔等多个产品中应用。

ED框架是科大讯飞第三代语音识别方案，创新过程持续时间比较长，一直从年到年。

万根顺坦言，从一个技术创新到真正的落地，中间经历了无数次打磨，对个人业务能力带来了质的提升。也是在这个过程里，万根顺对语音识别有了更深刻的认识，全面理解一个新系统，见证了追求大规模产业化落地的目标所需要面对的困难。

二代语音识别系统分了声学模型跟语音模型，两个模型需要联合起来。到第三代，是一个统一的框架，整个系统结构更加简洁，语音输入输出文字直接对应，效率进一步提升，不同语种切换使用也可以识别，在用户实用性上更加友好。

年开始，万根顺再次负责无监督训练在语音识别中的应用研究。面对不同场景设计的语音识别模型所需要的训练数据，在加入无监督训练功能后大大减少。

今年讯飞研究院所发布的“唇形+语音”的多模态语音交互技术，就是引入无监督训练的成果。基于多模态交互以及医疗认知等技术，科大讯飞还研发了一套抑郁症定量筛查系统和老年认知障碍筛查系统。

为了在语音识别领域保持技术领先，科大讯飞的做法是研发一代储备一代。在研发新一代语音技术框架的时候，就会投入一部分人力去做下一代框架的预研。“中文语音识别要由中国人做到最好。”这种追求已经内化为科大讯飞员工的信念，并成了一种传承。

目前科大讯飞下一代语音框架的预研已经在准备，万根顺表示，下一代将更加

转载请注明：http://www.0431gb208.com/sjszyzl/7448.html

上一篇文章：深度了解语音识别之发音词典及语音数据采集

下一篇文章：没有了