机器之心报道
作者:魔王、杜伟
PyTorch+Kaldi,腾讯AILab开源轻量级语音处理工具包PIKA,专注于端到端语音识别任务。
Kaldi是一个开源的语音识别系统,由DanielPovey主导开发,在很多语音识别测试和应用中广泛使用。但它依赖大量脚本语言,且核心算法是用C++编写的,对声学模型的更新和代码调试带来一定难度。
语音识别系统架构
「Kaldi之父」DanielPovey表示正在打造下一代Kaldi。去年夏天在WAIC开发者日上,Daniel分享了他对下一代Kaldi的期望,希望能够基于PyTorch甚至TensorFlow构建语义识别模型。
学术界和业界也都在努力改进语音识别流程,加快技术迭代。此前,YoshuaBengio团队成员MircoRavanelli等人开发了一个新型开源框架——PyTorch-Kaldi,试图继承Kaldi的效率和PyTorch的灵活性,弥补PyTorch和Kaldi之间的鸿沟:在PyTorch中实现声学模型,在Kaldi中执行特征提取、标签/对齐计算和解码。
近日,腾讯AILab开源了一个基于PyTorch和(Py)Kaldi的轻量级语音处理工具包PIKA。PIKA首个版本专注于端到端语音识别,开发团队以PyTorch作为深度学习引擎,使用Kaldi进行数据格式化和特征提取。
项目
转载请注明:http://www.0431gb208.com/sjszjzl/1673.html