新一代Kaldi能否为语音识别打开崭新大

来源：语言识别时间：2022/6/16

国内白癜风知名专家 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/jzpj/

在语音识别技术领域，DanielPovey（以下简称Daniel）的名字家喻户晓。他是语音识别开源工具Kaldi的主要开发者和维护者，被称为Kaldi之父。

年，小米创始人雷军确定了小米“手机+AIoT"的战略发展模式，DanielPovey博士也正式加入小米成为小米首席语音科学家。他说“小米是一家稳定的公司，加上因为它之前也表现出对开源的承诺与重视，所以我相信小米能够为语音识别领域提供优秀的孵化沃土。”

Daniel认为，从现有端到端语音识别模型的流行和准确率的逐步提升，到PyTorch、TensorFlow等易用的深度学习工具包的普及，开发新一代Kaldi已势如破竹。但新一代Kaldi的目标不仅仅是赶上或者稍微领先这些语音识别库，而是要根本地改变语音识别的实现方式。

年的MIDC大会上，Daniel博士发布了新一代Kaldi，它包括k2、Lhotse和Icefall三个部分。之所以将整个项目分为三个部分，一方面是为了降低耦合性，方便用户使用。更重要的是，Lhotse作为数据准备部分，不仅可以用在Icefall项目里，也可以用在任意其他语音识别库里来处理音频和文本数据。随着新一代Kaldi的推广和普及，Lhotse甚至有可能成为语音领域使用最为广泛的数据准备工具。而k2作为核心部件，不仅可以用来做语音识别，也可以用来做手写文字识别等其他任务。

经过一年的开发，Daniel的团队已经完善了k2和Lhotse，并基于二者正式发布Icefall项目。Daniel的团队不仅在其中展示了如何使用k2和Lhotse来实现现有的各种不同的语音识别模型，还着重展示了k2何以能从根本上改变人们实现语音识别的方式。Daniel称：“我们实现了‘双向建模’（bidirectionalmodeling）的模型，基于这种多层模型的优势，可以大大提高语音识别模型的建模能力，从而降低词错误率。目前，我们已经在LibriSpeech数据集上取得了2.57%的词错误率，而且还在持续的进一步优化。”

谈起新一代Kaldi的优势，Daniel自豪的表示，新一代Kaldi与PyTorch兼容，我们可以从机器学习的最新发展中获益。代码较原来的更灵活且容易修改，它允许用户更轻松地尝试新想法。总之，Daniel和他的团队希望通过新一代Kaldi，为语音识别领域打开一扇崭新的大门。Daniel深知，将新一代Kaldi的工作融入到小米产品为生产做好准备，他们还有很多工作要做：与现有生产模型解码、大量的集成和测试工作。Daniel希望在今年年底或明年初开始将下一代Kaldi应用于小米产品，继续扩大小米在语音技术领域的发展。

Kaldi对语音识别的改变将最终影响到普通用户，高效的解码速度和低WER（词错误率）将为普通老百姓带来更加美好的语音识别产品体验。以小爱同学为例，作为小米“手机×AIoT”战略布局中的一环，小爱同学承担着小米AIoT生态中极为重要的角色。

自年上线至今，小爱同学累计唤醒次数亿，累计激活设备2.51亿台，月活用户数达到万。而这一切的背后，都离不开小米语音团队依托于Kaldi之上打造的，适用于各种场景的不同语音模型。并伴随着小米AIoT产品线的扩展，开发出一个又一个的酷炫产品，如MIUI声控拍照、千人千面的内容点播、跨设备的声纹追剧、基于童音识别的内容限制等功能，大大方便了普通用户和家庭的生活。

随着新一代Kaldi的发布和其在小米产品线的逐步落地，相信在不久的将来，小米将和其他公司一起，为普通用户带来更加完善的AIoT产品体验。正如崔宝秋博士在去年举行的Kaldi线下交流会中所讲，这将是围绕Kaldi的“四赢”局面：Kaldi项目赢，小米语音赢，全球的Kaldi社区赢，所有跟Kaldi相关的中小型公司赢！

永久福利直投简历

（简历投递）：yuyinzatan

转载请注明：http://www.0431gb208.com/sjszlff/615.html

上一篇文章：斑马英语开团啦,斑马英语团购直降起

下一篇文章：惊艳神奇魔镜智能语音人脸识别一线