毕业论文
您现在的位置: 语言识别 >> 语言识别市场 >> 正文 >> 正文

资源横向对比5大开源语音识别工具包,CM

来源:语言识别 时间:2022/8/17
治疗白癜风费用高吗 http://m.39.net/pf/a_5127588.html

作者:

CindiThompson

机器之心编译

参与:李泽南、Smith

目前开源世界里存在多种不同的语音识别工具包,它们为开发者构建应用提供了很大帮助。这些工具各有哪些优劣?数据科学公司SiliconValleyDataScience为我们带来了5种流行工具包的深度横向对比。此前,他们曾为我们带来过流行深度学习框架的对比:《从TensorFlow到Theano:横向对比七大深度学习框架》。

作为深度学习研发团队的一员,我们对于循环神经网络(RNN)和其他语音识别需要用到的方法都有所涉及。在几年之前,业内最佳的语音识别系统还是基于语音分析的方法,包含发音、声学和语言模型。通常,这些方法包含n-gram语言模型,以及隐马尔科夫模型(HMM)。在此,我们以这种模型作为基准,试图对比目前流行的一些语音识别方法。迄今为止,我们很难看到有人对开源语音识别模型进行过真正对比,希望本文可以抛砖引玉,为大家带来一些帮助。

本文回顾了使用传统HMMn-gram语言模型的开源语音识别工具包。对于用户而言,大多数人都会知道Siri或Cortana这样的消费产品。而对于研发工程师来说,更灵活、更具专注性的解决方案则更符合需求,很多公司都会研发自己的语音识别通路。以下是目前开源世界上出现的流行工具包,以及我们对它们的各项评价。

开源免费语音识别工具包横向对比

本次分析基于svds开发者的主观经验和开源社区的已有消息。上表列出了目前大部分流行的语音识别软件(但略微超出开源的范畴)。年Gaida等人的一篇论文评估了CMUSphinx、Kaldi和HTK。其中HTK严格意义上来说并不是开源的,因为其代码并不能重用或作为商业用途使用。

编程语言

因为用户使用语言的情况各不相同,你可能会对特定的工具包有自己的偏好。以上工具除了ISIP以外都有Python的封装,虽然在一些情况下,Python封装并不包括核心代码的全部功能。CMUSphinx也包含了其他几种编程语言,如Java和C。

开发工作

在学术研究中,所有列出的项目都包含它们的来源。CMUSphinix,显而易见,从它的名字就能看出来是卡内基梅隆大学的产物。它已经以某些形式存在了20年了,现在它在Github(C(

转载请注明:http://www.0431gb208.com/sjszlff/1288.html

  • 上一篇文章:
  • 下一篇文章: 没有了