毕业论文

首页| 语言识别介绍| 语言识别发展| 语言识别优势| 语言识别市场| 语言识别前景| 语言识别资源

您现在的位置：语言识别 >> 语言识别优势 >> 正文 >> 正文

专注E2E语音识别,腾讯AILab开源语

来源：语言识别时间：2022/9/24

机器之心报道

作者：魔王、杜伟

PyTorch+Kaldi，腾讯AILab开源轻量级语音处理工具包PIKA，专注于端到端语音识别任务。

Kaldi是一个开源的语音识别系统，由DanielPovey主导开发，在很多语音识别测试和应用中广泛使用。但它依赖大量脚本语言，且核心算法是用C++编写的，对声学模型的更新和代码调试带来一定难度。

语音识别系统架构

「Kaldi之父」DanielPovey表示正在打造下一代Kaldi。去年夏天在WAIC开发者日上，Daniel分享了他对下一代Kaldi的期望，希望能够基于PyTorch甚至TensorFlow构建语义识别模型。

学术界和业界也都在努力改进语音识别流程，加快技术迭代。此前，YoshuaBengio团队成员MircoRavanelli等人开发了一个新型开源框架——PyTorch-Kaldi，试图继承Kaldi的效率和PyTorch的灵活性，弥补PyTorch和Kaldi之间的鸿沟：在PyTorch中实现声学模型，在Kaldi中执行特征提取、标签/对齐计算和解码。

近日，腾讯AILab开源了一个基于PyTorch和(Py)Kaldi的轻量级语音处理工具包PIKA。PIKA首个版本专注于端到端语音识别，开发团队以PyTorch作为深度学习引擎，使用Kaldi进行数据格式化和特征提取。

项目

转载请注明：http://www.0431gb208.com/sjszjzl/1673.html

上一篇文章：图片翻译在线识别什么好用图片文字翻译推荐

下一篇文章： 44选1,139万人点赞第四届中国青

最新文章

今日推荐

文字识别软件哪个好推荐一款非常

热点关注

文字识别软件哪个好推荐一款非常