交互模式的变革贯穿了整个IT产业的发展史,语音交互很有可能成为下一代人机交互的主要模式。
语音识别与自然语音处理是机器能够“听懂”用户语言的主要技术基础,其中语音识别注重对用户语言的感知,目前在中文语音识别上,国内已经达到97%的语音识别准确率,这要归功于深度神经网络的应用、算力的提高以及大数据的积累。语音识别是机器感知用户的基础,在听到用户的指令之后,更为重要的是如何让机器懂得指令的意义,这就需要自然语言处理将用户的语音转化为机器能够反应过来的机器指令,包括自然语言理解、多轮对话理解、机器翻译技术等。
对于自然语言处理方面,虽然深度学习能起到的作用还有待观察,但在语义理解和语言生成等领域都有了重要突破。很多提供语音技术服务的公司也突破了原有的单纯语音识别或者语义理解的业务框架,开始提供整体的智能语音交互产品。
图1 语音交互过程
01语音识别技术
语音识别技术已趋于成熟。语音识别的目标是将人类语音表达的内容转换为机器可读的输入,用于构建机器的“听觉系统”。语音识别技术经历了长达60年的发展。近年来,机器学习和深度神经网络的引入,使得语音识别的准确率提升到足以在实际场景中应用。早在年年初,美国麻省理工学院(MIT)主办的知名科技期刊《麻省理工科技评论》评选出了“年十大突破技术”,语音识别位列第三,与其他技术一起“到达一个里程碑式的阶段或即将到达这一阶段”。
深度神经网络声学模型的几个重大发展阶段如下:
·年,GeoffreyHinton提出深度置信网络(DBN),促进了深度神经网络的研究。
·年,GeoffreyHinton将深度神经网络应用于声音的声学建模,当时在TIMIT上获得了很好的结果。
·年底,微软研究院又把深度神经网络技术应用在了大词汇连续识别任务上,大大降低了语音识别的错误率。从此以后,基于深度神经网络声学模型技术的研究变得异常火热。
微软年10月发布的Switchboard语音识别测试中,更是取得了5.9%的词错误率,第一次实现了和人类一样的识别水平,这是一个历史性突破。
语音识别整个过程(见图2)包含语音信号预处理、声学特征提取、声学和语言模型建模、解码等多个环节。简单来说,声学模型用来模拟发音的概率分布,语言模型用来模拟词语之间的关联关系,而解码阶段就是利用上述两个模型将声音转化为文本。
图2 语音识别技术的运作流程
深度神经网络声学模型主要应用于声学、语言模型建模、解码等各个主要环节,模型主要包括深度神经网络、长短时记忆网络(LSTM)、双向长短时记忆网络(BLSTM)、深度卷积神经网络(DeepCNN)、Residual/Highway网络等模型,具体特点见表2。
表2 深度神经网络各部分及其特点
总之,语音识别作为一类重要的基础技术,应用十分广泛,并且己有不少产品为人们所熟知,语音识别产业的增长主要靠渗透率的提升和应用的突破,主要的应用包括语音助手、语音输入、语音搜索等,可应用在各类移动APP应用和终端应用等对人机交互有较高要求的领域。对于语音识别技术而言,率先发展起来的服务机器人和语音助手已占据数据积累的领先地位,在家居、出行、运动等多个场景中,语音交互正在爆发,智能音箱、智能车载、智能手表等产品中,通过接入语音交互技术,实现随身陪伴、语音助理的功能。国内现已涌现出一批发展较好的智能语音相关企业,其中技术领先和产品成熟的企业主要有科大讯飞、百度、小米等。语音识别经过几年的技术积累己相对成熟,厂商仍在发展方言识别等更为精准的识别方式。
02自然语言处理
简单地说,自然语言处理就是用计算机来处理、理解以及运用人类语言,属于人工智能的一个分支,是计算机科学与语言学的交叉学科。实现人机间自然语言通信意味着要使机器既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。
无论是实现自然语言理解,还是自然语言生成,都十分困难。从现有的理论和技术现状来看,通用的、高质量的自然语言处理系统仍然是较长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现,有些已商品化,甚至开始产业化。
深度学习、算力和大数据的爆发极大地促进了自然语言处理技术的发展。表3中是几种常用的深度神经网络NLP模型。
表3 几种常用的深度神经网络NLP模型
NLP领域还有很多其他种类的深度学习模型,有时候递归神经网络和卷积神经网络也会用在NLP任务中,但没有RNN这么广泛。总之,在自然语言处理领域,多轮对话理解日益完善,但语义理解仍然具有一定的缺陷,距离机器理解人类,实现自然的人机交互还有一些路要走。
预览时标签不可点收录于话题#个上一篇下一篇转载请注明:http://www.0431gb208.com/sjszlff/11.html