毕业论文
您现在的位置: 语言识别 >> 语言识别介绍 >> 正文 >> 正文

语音识别开启人工智能情感计算

来源:语言识别 时间:2022/4/12

作者/iCombinator

微软在昨天的发布会上解锁了人工智能机器人小冰的语音功能,这是继Windows10发布时解锁部分图像功能后又一次情感计算功能的提升,语音识别一直是人工智能的重点研究领域,也是未来人工智能技术产业应用的主要方向之一。语音识别不仅带来一种全新的、变革式的人机交互方式,还会催生出一种人类和机器的情感交流。

语音识别技术的发展并非一帆风顺,十几年深度学习的出现才使其走向成熟。年前后,深度学习专家Hinton领导的CIFAR引入了无监督学习程序——无需标记数据便可创建特征检测器层,利用重构学习目标来「预训练(pre-training)」几层复杂度递增的特征检测器。这种预训练的方法的首次重要应用是在语音识别上。年,这个方法被用来计算一段声音采样中提取短时系数窗口对应的一系列概率值,这些概率值反映出由窗口中帧表示语音各个段落的可能性。在小词汇表的标准语音识别测试上,这种方法的训练效果打破纪录,很快它又发展到打破大词汇表的标准语音测试纪录。此后,各种深度网络一直的得到多个主要语音研究小组持续开发并被布局在安卓手机上。

Facebook人工智能研究主管YannLeCun说:「过去,神经网络并没能在持续语音识别方面得到什么突破;这是因为他们(过去使用的神经网络)不够大。当人们开始尝试使用深度神经网络代替高斯模型的时候,错误率大大地下降了。」使用深度神经网络表现出超过三分之一的提高,将语音识别的错误率从35%降低到低于25%。在此基础上对其进行优化,还可以带来的更多的提高空间。

众多科技巨头都意识到了语音识别的重要性,在强化这方面的研究,推出各类语音识别工具。iPhone的语音助手Siri,正是以深度学习为基础的。根据德勤发布的一份报告显示,Google在年将语音识别的精准度从年的84%提升到如今的98%,移动端Android系统的语音识别准确性提高了25%。年5月,在加利福尼亚州举办的会议上,微软展示了一款可以实时语音翻译的程序。去年年底,百度基于深度学习的名为“DeepSpeech”语音识别系统可以在嘈杂环境下实现将近81%的辨识准确率。中国人工智能公司科大讯飞将语音识别应用在了教育领域,通过机器来进行口语考试,并且在“宝马全球中文语音技术测试”中获得了第一名。今天微软小冰语音功能的解锁,使之成为了在感官系统更加丰富的人工智能机器人,实现了IQ和EQ的均衡发展。

科技巨头对语音识别功能的重视主要是源于语音对人类的重要性。我们来到这个世界,就具备天生的学习语言的技能,从而更好的与其他有感知的人进行交流。但在过去很长一段时间,我们和机器的交流只能依靠我们将人类语音或语言转化成机器能够理解的语言,以此来向其发出指令并让其完成相应任务。这样造成了两个问题,第一是人类和机器的交流不是一种最直接的方式,影响了效率。第二是人类语音虽然通过机器实现了数字化,但机器依然无法读懂它,无法提取出其中的关键信息。比如

转载请注明:http://www.0431gb208.com/sjszlfa/4.html