业界DuerOS普罗米修斯计划30页国际

来源：语言识别时间：2023/4/4

机器之心发布

百度DuerOS

美国西部时间11月9日，百度DuerOS普罗米修斯计划在美国硅谷召开启动发布会。一周后，百度世界大会上，普罗米修斯计划正式起航。据介绍，普罗米修斯计划作为百度DuerOS今年最重要的战略规划之一，包含开放超大规模对话式AI数据集、跨学科合作、学科共建等多种计划，以及一个百万美元基金用以鼓励和培养对话式AI领域的优秀项目和人才。

在硅谷启动会上，亚马逊机器学习高级主管BjrnHoffmeister博士、约翰霍普金斯大学人类语言技术中心主任SanjeevKhudanpur博士、Facebook前研发科学家AntonieRaux分别从语音唤醒、语音识别、多轮交互三方面发表了主题讲话，介绍了学术领域的发展概况、研究方法等，并对普罗米修斯计划给予了高度评价，认为它将助推全球对话式AI行业的科研发展及人才培养。除此之外，卡耐基梅隆大学研究教授AlexanderRudnicky、麻省理工学院（MIT）高级研究科学家JimGlass等一众国外专家学者纷纷加入项目顾问团队，组成了超豪华专家指导委员会。

DuerOS普罗米修斯计划的全球专家指导委员会

普罗米修斯计划启动发布会上，Khudanpur博士、AntoineRaux博士围绕唤醒、数据等方面对对话式AI进行了深度分析。

百度主任架构师陈果果曾指出人才、数据、基础设施、计算能力是AI领域最重要的四元素。进入大数据时代，机器学习的模型、尤其是神经网络的模型，都需要大量数据来进行训练。但是大规模的数据集一直是业界稀缺资源。而此次普罗米修斯计划发布的数据集将是目前数据量最大的中文语音、对话相关的数据集，多个任务数据集均为业界独家发布。该计划将从「产、学、研」三方面全面推动对话式AI的发展。

以下是约翰霍普金斯大学人类语言技术中心主任SanjeevKhudanpur博士、Facebook前研发科学家AntonieRaux对于对话式AI数据集进行的深度解读。

如何通过Kaldi开启对话式人工智能系统的革命

Khudanpur博士是约翰霍普金斯大学电子与计算机工程学院教授，他认为目前各科技公司都在布局智能音箱这一对话式AI的新战场，百度当然不会错过这个机会。同时，DuerOS并没有将目光局限于此，而是要通过AI赋能更多的场景，达到唤醒万物。

Khudanpur博士指出，语音作为对话式AI系统的入口，语音识别系统的性能就显得尤其重要。一套完整的语音识别系统通常由三个部分组成：语言模型，声学模型，解码器。语言模型用于刻画特定语言在其语法规则约束下形成的词与词之间的搭配关系，声学模型则用于刻画音素的发音特性，二者通过词典关联起来，解码器将三者构建出搜索空间以解码出最优路径，即为识别结果。

在过去，工业界各家公司有自己独有的一套系统和算法，学术界则专注于研究理想条件下的识别性能提升。于是，对于初创公司和小型实验室而言，搭建一个在实际场景中高可用度的语音识别系统显得步履维艰。

Kaldi诞生于年约翰斯霍普金斯大学一个workshop，它采用了Apache2.0许可，支持修改和再发布。Kaldi这个命名源自传说中第一个发现咖啡的人，以此为名旨在提供一个像咖啡一样灵活方便、流行的语音识别工具包，方便开发人员使用。

Kaldi项目在过去的6、7年中已经有大约多名不同的贡献人，在主干版本外还有8个分支，多个

转载请注明：http://www.0431gb208.com/sjszlff/4025.html

上一篇文章： IBMPowerAIVision极速创建

下一篇文章：没有了