毕业论文
您现在的位置: 语言识别 >> 语言识别市场 >> 正文 >> 正文

新一代Kaldi能否为语音识别打开崭新大

来源:语言识别 时间:2022/6/16
国内白癜风知名专家 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/jzpj/

在语音识别技术领域,DanielPovey(以下简称Daniel)的名字家喻户晓。他是语音识别开源工具Kaldi的主要开发者和维护者,被称为Kaldi之父。

年,小米创始人雷军确定了小米“手机+AIoT"的战略发展模式,DanielPovey博士也正式加入小米成为小米首席语音科学家。他说“小米是一家稳定的公司,加上因为它之前也表现出对开源的承诺与重视,所以我相信小米能够为语音识别领域提供优秀的孵化沃土。”

Daniel认为,从现有端到端语音识别模型的流行和准确率的逐步提升,到PyTorch、TensorFlow等易用的深度学习工具包的普及,开发新一代Kaldi已势如破竹。但新一代Kaldi的目标不仅仅是赶上或者稍微领先这些语音识别库,而是要根本地改变语音识别的实现方式。

年的MIDC大会上,Daniel博士发布了新一代Kaldi,它包括k2、Lhotse和Icefall三个部分。之所以将整个项目分为三个部分,一方面是为了降低耦合性,方便用户使用。更重要的是,Lhotse作为数据准备部分,不仅可以用在Icefall项目里,也可以用在任意其他语音识别库里来处理音频和文本数据。随着新一代Kaldi的推广和普及,Lhotse甚至有可能成为语音领域使用最为广泛的数据准备工具。而k2作为核心部件,不仅可以用来做语音识别,也可以用来做手写文字识别等其他任务。

经过一年的开发,Daniel的团队已经完善了k2和Lhotse,并基于二者正式发布Icefall项目。Daniel的团队不仅在其中展示了如何使用k2和Lhotse来实现现有的各种不同的语音识别模型,还着重展示了k2何以能从根本上改变人们实现语音识别的方式。Daniel称:“我们实现了‘双向建模’(bidirectionalmodeling)的模型,基于这种多层模型的优势,可以大大提高语音识别模型的建模能力,从而降低词错误率。目前,我们已经在LibriSpeech数据集上取得了2.57%的词错误率,而且还在持续的进一步优化。”

谈起新一代Kaldi的优势,Daniel自豪的表示,新一代Kaldi与PyTorch兼容,我们可以从机器学习的最新发展中获益。代码较原来的更灵活且容易修改,它允许用户更轻松地尝试新想法。总之,Daniel和他的团队希望通过新一代Kaldi,为语音识别领域打开一扇崭新的大门。Daniel深知,将新一代Kaldi的工作融入到小米产品为生产做好准备,他们还有很多工作要做:与现有生产模型解码、大量的集成和测试工作。Daniel希望在今年年底或明年初开始将下一代Kaldi应用于小米产品,继续扩大小米在语音技术领域的发展。

Kaldi对语音识别的改变将最终影响到普通用户,高效的解码速度和低WER(词错误率)将为普通老百姓带来更加美好的语音识别产品体验。以小爱同学为例,作为小米“手机×AIoT”战略布局中的一环,小爱同学承担着小米AIoT生态中极为重要的角色。

自年上线至今,小爱同学累计唤醒次数亿,累计激活设备2.51亿台,月活用户数达到万。而这一切的背后,都离不开小米语音团队依托于Kaldi之上打造的,适用于各种场景的不同语音模型。并伴随着小米AIoT产品线的扩展,开发出一个又一个的酷炫产品,如MIUI声控拍照、千人千面的内容点播、跨设备的声纹追剧、基于童音识别的内容限制等功能,大大方便了普通用户和家庭的生活。

随着新一代Kaldi的发布和其在小米产品线的逐步落地,相信在不久的将来,小米将和其他公司一起,为普通用户带来更加完善的AIoT产品体验。正如崔宝秋博士在去年举行的Kaldi线下交流会中所讲,这将是围绕Kaldi的“四赢”局面:Kaldi项目赢,小米语音赢,全球的Kaldi社区赢,所有跟Kaldi相关的中小型公司赢!

永久福利直投简历

(简历投递):yuyinzatan

.

转载请注明:http://www.0431gb208.com/sjszlff/615.html