编者注:本文转载自infoQ(ID:infoqchina),撰稿:蔡芳芳,编辑:徐川,极客公园已获转载授权。
1写在前面
在中国人还在为哪款手机更好而撕逼不休的时候,智能音箱已经悄悄深入美国人的生活。
年7月亚马逊Premium会员日,它卖出了超过去年同期7倍的Echo系列智能音箱。而在年下半年,Echo总共已经卖出超过万台。市场调查公司eMarketer近日公布的智能音箱市场研究报告预测,美国今年智能音箱的月活跃用户将达到万人。这一数字已经超过美国总人口的十分之一。
智能音箱以及它所代表的趋势,已经不容忽视。智能音箱到底值不值得用?智能音箱的未来又会如何?本文将带你一起观察国内外智能音箱市场的火热现状,解析背后的技术,并给出我们对于趋势的分析和判断。
2何以起风波?
根据Gartner预测,到年将会有30%的人机交互通过自然语言会话完成[1]。而基于远场的自然语音交互恰恰就是催生出智能音箱市场的重要需求。
以一次普通的听音乐和看视频为例:
现在用手机听音乐,首先要先解锁手机屏幕,打开某一个音乐APP,搜索你想听的那首歌,然后点击播放;如果变成语音交互会怎么样呢?你只需要说:播放陈奕迅的好久不见。
如果这个时候恰好是周日晚上10点,你想看最新一期极限挑战。如果是现在,你需要在手机上切换到视频播放软件,或是打开电脑输入视频网站地址,然后搜索极限挑战第三季,最后选择最新一期播放;如果换成语音交互,你只需要说:播放极限挑战第三季最新一期。
类似以上场景,语音交互在很多时候执行效率都明显高于GUI交互。业界普遍认为,智能语音交互会成为未来人机交互的新方式,一如当年乔布斯在iPhone上用触屏打败传统手机键盘,语音交互也可能会颠覆图形界面交互。而智能音箱已经成为智能语音交互的重要载体。
年11月,亚马逊推出基于语音交互的智能音箱Echo,拉开智能音箱市场大幕。年Echo的销售数据一路高涨,一举突破万台,亚马逊获得先发优势,在美国市场积累了大量用户。
亚马逊率先尝试并大获成功,证明了以智能音箱作为智能语音交互载体和智能家居入口的可行性和正确性。各家纷纷入局智能音箱市场,既是响应智能语音交互时代的召唤,也是不甘亚马逊独占用户和市场红利。
根据CIRP、RBCCapitalMarket数据,自年11月发售以来,包括Echo、入门级EchoDot和便携式Tap在内的亚马逊智能音箱,已累计销售超过千万台,销售额达到8至10亿美元。
而根据市场调查公司eMarketer近日公布的智能音箱市场研究报告预测,美国今年智能音箱的月活跃用户将达到万人,比去年增长.9%,其中亚马逊的Echo将达到70.6%的市场占比,远远领先于第二名GoogleHome的23.8%以及联想等其他品牌。今年每月至少使用一次这些语音助手的美国人将达到万人。这一数字已经超过1/4的智能手机用户,并且接近1/5的美国人。[2]
再看国内的智能音箱市场:
根据《科大讯飞股份有限公司年年度报告》[3],叮咚智能音箱在年的总销量为10万台。基于线上淘宝(包含天猫)销售数据的跟踪调查,智能音箱品类的整体月销量还不到2万台。[4]
与国外智能音箱庞大的用户群体相比,国内智能音箱市场似乎「小」到不值一提,但产品数量之多却毫不逊色。
3乱花渐欲迷人眼:智能音箱产品介绍
智能音箱在传统音箱的基础上增加了一些更「聪明」的功能,主要体现在以下几个方面:
通常内置无线射频芯片或射频模块,可以通过WiFi接入互联网。
支持语音交互,无需动手就能控制音箱,一般也支持少量按键操作。
接入丰富的音频内容,如各家音乐提供商的曲库、有声读物等。
提供丰富的互联网服务,如外卖、打车、购物、充话费等,满足日常生活多种多样的场景需求。
实现对各种智能家居设备的控制,使用户能够通过与音箱对话来操控家电产品,成为智能家居控制的核心。
目前市场上的智能音箱产品主流为无屏幕的智能家居助手类音箱,以语音交互技术为核心,旨在成为智能家居的控制中心,亚马逊的Echo、京东的叮咚、阿里的天猫精灵等都属于这一类。
智能音箱代表大比拼之海外党
海外党以亚马逊、Google、苹果和微软这四款智能音箱为代表,这四款智能音箱功能并无太大区别,均支持个人生活助手、智能家居控制等主要功能,都采用了各家自研的语音助手。
亚马逊进入市场较早并致力于打造开放的Alexa开发平台,现在Alexa几乎无所不能,成为亚马逊的优势之一。
GoogleHome的优势是信息检索和会话聊天的能力。今年四月份GoogleAssitant还添加了一项新功能,能够识别出谁在说话并相应地做出个性化的回应,最多支持六个人的不同声音。谷歌本身拥有完善的内容和应用生态系统,GoogleHome已经和部分自家应用以及不少第三方应用打通。通过GoogleHome可以查看日程安排,播放GooglePlayMusic和YouTubeMusic里喜爱的音乐,点播YouTube或Netflix视频并在电视上播放(需配合Chromecast)。但目前还有很多重要应用如Gmail、Voice和Docs,GoogleHome尚无法支持。
苹果和微软的这两款音箱都已经发布但还没有正式上市。HomePod主打音乐和音质;微软的Invoke一开始则以支持Skype互联网电话作为亮点,但奈何竞争对手产品更新太快,未等Invoke推出,亚马逊的Echo和GoogleHome均已经支持拨打电话,虽然还存在一些隐私问题留待讨论。
年8月底,微软与亚马逊达成合作,以更好地整合他们的语音助手「Cortana」和「Alexa」,想必还有一个未明说的原因是为了更好地抗衡谷歌语音助手。
智能音箱代表大比拼之本土派
从左至右分别为:天猫精灵、叮咚二代、小米AI音箱
上图选择叮咚、天猫精灵、Rokid月石和小雅音箱进行对比。目前国内智能音箱产品同质化也比较严重,前三款智能音箱的主要功能依然没有太大差异,而小雅智能音箱主打内容服务,并不支持智能家居控制。
在语音助手方面,Rokid月石采用了自主研发的语音助手,而叮咚、小雅分别采用了科大讯飞、猎户星空的语音技术方案,天猫精灵的语音助手则集成了思必驰和阿里自研方案。若琪最突出的一点不同是它的唤醒词只有两个音节,而目前市面上其他智能音箱产品的唤醒词大多为三个音节或更多。9月新发布的叮咚二代支持自定义唤醒词,但实际使用效果有待验证。
4智能音箱背后的核心技术
智能音箱的核心需求和一切操作的前提是语音交互,因此语音交互技术自然成为其核心技术。当然它的背后还连接着一棵郁郁葱葱的人工智能「技能树」,受限于文章篇幅和笔者能力,本章仅重点介绍语音交互技术。
以下图为例,当我们调戏天猫精灵时,跟它进行一次简单对话的语音交互流程包含哪几步?
语音识别
第一步是语音识别(ASR)。智能音箱所使用的语音识别技术与手机端的语音助手有所不同,叫做远场拾音,指的是我们能够在超过5米以上的距离跟设备进行自然语音对话。
有了远场拾音之后,人们可以在家里任意角落、轻松地跟智能设备交流。虽然苹果siri、谷歌GoogleNow、微软Cortana等语音助手很早就实现了语音识别,但都是近场语音,使用时需要拿出手机、启动助手、靠近讲话等步骤,与远场拾音相比在体验上有很大的差距。
要实现相对理想的远场拾音效果,降噪是重要的一环。目前常见的做法是利用算法与硬件相结合实现更好的降噪效果。硬件部分,通常麦克风越多,越有助于收集到来自不同方向的声音,从而更容易在噪音环境中识别出有用信息,达到更好的远场交互效果。现在大多数厂商都采用了6个以上麦克风组成的麦克风阵列技术,只有GoogleHome通过算法+仅仅2枚麦克风就实现了还不错的远场拾音效果。
语音识别还需要配置激活词,通过激活词「开启」语音交互功能(就像开机按钮一样),从技术上来说,激活词越短则体验越好、技术难度越高,但同时误激活概率也随之变高。
语音识别技术的局限性
语音识别技术历史进程
语音识别技术的目标是将人类语音中的词汇内容转换为计算机可读的输入。自年以来,借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别技术得到突飞猛进的发展,语音识别准确率大幅提升。[5]
今年8月20日,微软语音识别系统再次取得重大突破,错误率降低至5.1%,大幅刷新原先记录,并在语音识别行业树立了新的里程碑[6]。
可惜,这些突破更多是针对在安静的室内并近距离靠近麦克风的场合。在噪音或者远场识别环境下,错误率仍居高不下;面对口音、方言,识别率也还有待提升。
自然语言理解
第二步是自然语言理解(NLU),指的是对自然语言的内容和意图的深层把握。通俗地讲,就是在一些话题上,智能设备能够理解人讲的话,或者能把人类的语言理解成机器的语言。目前智能设备只能做到浅层的「理解」,例如把转化成文字后的两句话「给萧敬腾打电话」和「打电话给萧敬腾」理解成同样的操作。
第三步是自然语言生成(NLG),这一步和第二步相反,就是把机器的语言转换成人类的语言。
第二步和第三步从广义上来说也可以合称为自然语言处理(NLP)。
自然语言理解技术的局限性
自然语言理解属于业界难题,也是人工智能的终极目标之一。
现在的自然语言系统一般使用的是基于统计的方法。所谓统计方法,主要指分析单词的统计量作为「特征」,将它们输入到计算模型里,算出一个结果,最终输出成词句。
目前自然语言理解尚处于浅层语义分析阶段,大致包含词法分析、句法分析、语义分析这三个层面。机器对句子的理解还只能做到语义角色标注,如标出句中的句子成分和主被动关系等。当前的研究方法大多是同一套路,即通过语料标注、建立模型、训练模型、使用模型,令自然语言系统做到简单的模型式「理解」。即使是当下最火的深度神经网络,也只是在模式识别这个手段上更加高明一点,仍然无法达到理解语言的程度。自然语言理解研究主要集中在一些特定领域,研究跨领域的通用语言理解为时尚早。
如今为大家所熟知的自然语言处理系统,比如苹果Siri、微软小冰、讯飞听见等,其实都没有真正的「理解」自然语言本身,大多是基于文本相似度的匹配,更高级的则应用了知识图谱。
语音合成
最后一步是语音合成(TTS),也就是将文字转换成声音播放出来,并尽可能地模仿人类自然说话的语音语调,给人以真人之间交谈的感觉。
语音合成技术发展到今天已有多年的历史,但自计算机技术发展起来以后才有了长足的发展。近些年,一种新的基于数据库的语音合成方法得到了更广泛的应用。
随着技术演进,语音合成的复杂度、自然度和音质都已取得不错的成绩,目前研究重点在于提高合成音的表现力(如语气和情感等)以及多语种的语言合成。
其他语音交互技术
以上仅仅是最简单的一次对话会涉及到的核心技术,如果进行更复杂的对话或者根据用户给智能音箱指派的不同指令,还会涉及更多(以下技术可能存在交叉):
高级语音技术:声纹识别、情感识别、多轮会话、场景感知、个性化对话等
大数据相关技术:搜索、推荐、知识问答、知识图谱、开放式聊天等
其他:可扩展语义技能
其中声纹识别技术赋予智能音箱的能力是让设备记忆并识别使用者的身份,在此之上可以扩展更多购物、安防、个性化对话等方面的应用;多轮会话就是让智能音箱能够在一段比较多来回的会话中自动记住上下文,用户不需要重复说唤醒词,就能对智能音箱提出问题并进行追问,真正做到接近于与人沟通的语音交互体验,多轮会话同样属于语音技术领域研究的难点,其主要建立在语音识别、合成以及自然语言理解等技术基础之上,目前自然度和准确度有待提高;情感识别指的是设备能够从声音中听出你现在的情绪,是生气、伤心还是高兴,然后做出相应的个性化回应。搜索和推荐很好理解,比如你总是放某一类歌曲,下一次你让智能音箱随机给你放首歌,它就能选对你可能喜欢的歌曲。
多轮会话
至于可扩展语义技能,是指第三方开发者可以在语音开放平台上为语音助手添加新的技能,丰富语音助手的功能。
5智能音箱功能使用现状与消费者调查
智能音箱背后虽然有许多「高大上」的技术,但这些技术本身还在不断地发展和完善。作为消费者,更
转载请注明:http://www.0431gb208.com/sjslczl/5446.html