智能音箱多到数不过来,然而让机器听懂世界

来源：语言识别时间：2023/2/28

早期白癜风怎么治疗 http://m.39.net/pf/a_4791353.html

雷锋网按：本文作者陈孝良，博士，声智科技创始人，曾任中科院声学所副研究员和信息化办公室主任，北京市公安局首届网络应急专家，主要从事声学信号处理和GPU深度学习算法研究工作。

语言对于人类文明的重要性不言而喻，但是语言的起源却是个高度争议的话题，我们对此几乎一无所知。我们不了解人类，也不了解动物，更是不懂宇宙，甚至我们都不能完全搞清楚一些看似简单的问题，比如人类的耳朵为何要有这么奇怪的耳廓？

一、让机器听懂世界承载了人类千年梦想

语言承载了人类文化，人类需要通过语言学习知识和传递信息，这是人类区别于动物界最重要的特性之一。而且，人类语言超过了五千多种，人类将大部分时间花费在学习各种语言上似乎也不是一个更有效的途径。因此，未来的机器智能时代，机器也必然需要通过语言实现与人类之间的交互，似乎最近的科幻片都已经暗示了这个问题。现在的科幻就是未来的现实，因此，让机器听懂世界，这是未来机器智能时代的关键问题，也是人类一个更大的梦想，但是，我们距离人类的这个梦想还有多远呢？

首先明确一个概念，让机器听懂世界，这里面其实蕴含了多个历程，包括听懂人类语言，进而听懂动物叫声，甚至听懂自然声音，亦或类似地球的耳朵LIGO那样聆听宇宙的“声音”。所有这些都是极其复杂的过程，因为我们人类实际上也没有达到这种能力，但是我们期望机器能够延伸人类的能力，从而实现人类的梦想。这是一个简单的道理，有时候我们做不到的事情，总期望别人能够做到，所以语音智能事实上承载的是几千年来人类的伟大梦想。

再看第一个历程，既让机器听懂人类语言，这已经是最近技术和市场上非常火热的事情，也是全世界科学家为止奋斗了六十多年的事业。这其中最为典型的，就是以亚马逊Echo所引领的智能音箱，迄今为止，占据全球市值排名榜的全球巨头，包括国内的阿里、京东、腾讯、百度、小米、科大讯飞等，国外的苹果、微软、亚马逊、谷歌、脸书、三星等，创历史的同时发力争夺未来智能时代的语音入口，甚至亚马逊和阿里率先不惜代价开启了补贴大战。这些全球巨头的激烈竞争，将对未来十年甚至二十年产生极其重要的影响。

那么，如何才能让机器听懂人类语言呢？这需要解决三个核心关键问题：听见、听准和听懂，从技术角度来看，就是拾音、识别和理解三个关键技术环节。拾音是最为基础的环节，必须保证让机器听得见声音，这部分主要是声学问题；识别是将符合要求的声音转化成文字，这部分主要是语音识别的问题；理解则是根据识别出来的文字，准确理解人类的指令甚或情感。鉴于语音智能设备已经大量出现在我们生活场景之中，当前技术的核心关键就是声学问题和语义理解。

二、近场语音是机器听懂人类的率先尝试

近场语音交互主要是指人类距离机器不超过30厘米范围的语音识别技术，这项技术利用距离巧妙回避了真实场景下复杂的声学问题，可以理解为一种实验室理想环境下的语音交互技术。近场语音识别从上世纪五十年代就开始研究，但是长期没有实质性进展，直到苹果在年推出Siri的应用，这才引起了全球的

转载请注明：http://www.0431gb208.com/sjszlfa/3551.html

上一篇文章：嵌入式是什么意思嵌入式是干什么的

下一篇文章：没有了