毕业论文
您现在的位置: 语言识别 >> 语言识别市场 >> 正文 >> 正文

前沿科技解读丨人工智能的ldquo耳

来源:语言识别 时间:2022/7/12
白癜风治疗医师 http://m.39.net/pf/a_4640687.html

人工智能的“耳朵”——语音识别

文/王轩

语音识别

语音识别,是未来人工智能的重要组成部分。试想一下,如果计算机连话都“听不懂”,又何谈智能。近些年来,几家大公司不断的收购行为——苹果收购siri、facebook收购Wit.ai、中国移动入股科大讯飞,将语音识别推向舆论的高峰。除此以外,各大公司也在不断推出自己的语音助手,微软推出了语音助手Cortana(中文俗称“小娜”),google发布了聊天应用Allo,百度推出了百度语音,还有无数的创业公司纷纷基于语音识别技术推出了自己的语音助手。

怎样才能让计算机“听懂”你的话?

语音识别从目的上来说就是为了让计算机能够听懂人说的话,为了实现这一目的,通常需要几个步骤——预处理、特征提取、特征匹配、语言模型训练。下面我们来一一了解一下。

预处理

我们知道,语音是以声波的形式存在的。预处理首先需要滤除掉声音中的噪音信号,之后检测语音信号的始末,最后对语音进行分帧。这里重点说一下分帧,我们都知道,视频是由一幅幅画面快速播放形成的,如我们在看电影时,其实看到的是每秒24幅图像。而音频信号不同,它是一个连续的信号,所以在识别之前需要人为将其分为多个小段以方便后续处理,如每10毫秒(毫秒=1秒)一段,则一句长5秒的话会被分为个小段。

▲图1:语音信号波形图

特征提取

特征提取是计算机通过算法得出每一小段语音频谱的本质信息,特征提取算法即要求能计算出频谱的关键数据,同时还要求具有很强的稳定性,从而能够抵抗外界的干扰。提取以后,一个词对应的多个小段频谱会被以向量的形式描述出来。如计算机听到用户说“天气”,则在计算机中,这个词被描述为向量“(13、4、10),(40,17,5)”这种形式,当然实际上所需要的数字个数会比这个多很多。

特征匹配

在系统搭建时,会建立特征数据库,形象来说就是把每个字的发音都用几个向量描述出来,向量的生成方法与特征提取使用的方法相同。将待识别的语音信号与数据库进行比对,由于即使同一个人连续读两次同一个词也会存在差异,所以识别结果是一个概率值。接上面的例子,数据库可以理解为一本字典,其中存储着“天气——(12、4、10),(40,16,5)”“甜蜜——(9、4、10),(25,17,8)”“早晨——(45,76,22),(7,45,1)”等所有词的数字描述,计算机通过查字典发现,对比每组数字之间的差异,最终得出听到这个词“是天气的概率为90%,是甜蜜的概率为53%,是早晨的概率为0.1%”这种结果。通常概率最大的被认为是识别结果。

语言模型训练

语言模型训练主要作用是教会计算机语法语义,用于在特征匹配时缩小范围。目前大部分语音识别是建立在用户的描述符合正常说话习惯的基础上的,所以模型定义了哪些词能够跟在上一个已识别词的后面。如果是3个单独的词识别,结果可能是“巧克力”“飞翔”“宝石”,但当他们是一句话时,计算机会自动将结果修正为“巧克力非常好吃”。

计算机“学语言”的心路历程

语音识别从效果上看经历了三个阶段,一是独立字识别(对于英语来说是独立词识别)、二是短语识别、三是结合情景的语义识别。

独立字识别是指当用户说出“fu”,计算机可以准确判断出用户的读音,并整理出该音可能对应的汉字,如“付”“复”“负”“富”等。

短语识别是指用户说出“baofu”时,计算机可以剔除不合理的组合如“爆付”“鲍复”等,而识别出用户说的可能是“报复”“抱负”或者是“暴富”。

结合情景的语音识别则是当听到“baofu”时,计算机会联系用户说的整句话甚至之前说过的内容来推断用户具体说的是哪个词,如果情景中提到了仇恨,则识别结果会是“报复”,如果情境中提到了金钱,则结果最有可能是“暴富”。

苹果的收购历史正好和这三个阶段一样,苹果于年收购了siri并在iPhone4S上发布siri语音助理,但当时的语音助理用户体验很差。接着,苹果于年又收购了Novauris,该公司有着很好的识别短语的技术。最后,苹果又在年收购了VocallQ,VocallQ的复杂指令处理能力尤为突出,它可以结合情景很好地推断用户想表达的内容。

实现人机正常对话,还有多久?

语音识别根据对说话人的要求分为特定人语音识别和非特定人语音识别。

特定人语音识别是指当前的语音识别系统被设计用来识别某个具体使用者的语音,这种情况下数据库中的音频样本均来自于使用者本人,所以数据库中语言的发声习惯、语速、语调均与使用者一致,可以大幅提升识别准确率。缺点就是系统只能供本人使用,识别其他人语音时效果会大幅下降,同时系统搭建时需要使用者的语音样本来完善数据库。

非特定人语音识别是指使用一套通用的系统来供所有用户使用,这样用户使用门槛低,系统推广性强,但缺点就是识别率正确率不如特定人语音识别系统,这也很好理解,专用的总比公用的会好一些嘛。现在大部分语音识别系统都是非特定人语音识别系统。

计算机“学语言”的心路历程

语音识别根据对说话方式的要求又可以分为孤立词识别和连续语音识别。

孤立词识别是指说话人每次只说一个单词,系统也每次只能识别一个单词,这样做好处是人在只说一个单词时,发音可以更加清晰且不会受上下文影响,而且独立词识别系统所需运算量低,匹配模板清晰,这就意味着孤立词识别可以具有很高的识别率。通常命令词识别都是以孤立词识别为基础的,googleglass用户通过说出“okglass”后,系统就会认为用户下面说的话是对眼镜的指令,如此时用户再说出“takeapicture”,眼镜就会使用前端的摄像头自动拍摄一张照片。

▲图2:googleglass智能眼镜

连续语音识别是指用户以正常的语速和聊天方式说话,系统来识别用户想表达的内容,这种识别方法要求系统具有较强的运算能力,同时,识别的准确度也没有孤立词识别高。因为连续语音识别符合人正常的说话习惯,所以它必然是未来的发展方向,而且好的算法已经可以通过上下文关联来提升每个单词的识别度。

这些语音识别功能,你知道吗?

目前多家公司都基于语音识别技术推出了语音助手,用来辅助操作电子设备或充当秘书做提醒工作。这里举几个例子,感兴趣的读者可以自己尝试一下。

Windows10的小娜是一款比较成熟的语音助手,用户使用可以使用小娜要求电脑执行命令,功能十分丰富。

设置日历提醒

小娜可以根据听到的语音内容自动设置日历提醒,如用户说出“创建日历,明天早晨八点去学习”,小娜可以找出其中的关键点,如日期是明天,时间是八点,内容是去学习,同时询问用户是否将这些内容加入日程安排,此时如果用户说“是”,则系统会将信息记录并,如果信息有误,用户可以说“不是”来修改信息。

打开应用

当用户需要打开已经安装的程序时,可以直接说出类似于“打开QQ”的指令,计算机会自动打开QQ,对于作者这种懒得整理桌面图标的人,再也不用满桌面找QQ在哪了。

查询功能

小娜还可以接受一些查询的指令,如用户说“劳动节放假几天”,小娜会自动打开日历并把劳动节放假的日期显示出来。

计算器

小娜还可以调用windows内置的某些功能,如用户说出“除以35等于几”时,小娜会自动调出计算器并计算结果。

上面是电脑的语音助手小娜的应用示例,接下来介绍科大讯飞发布的灵犀语音助手的功能。

自动拨号、发送信息

语音自动拨号已经不是什么新鲜的功能了,几乎所有的语音助手都支持这一功能,用户只需要说出“打电话给XX”,手机就可以自动拨打号码。除了拨打号码,发送短信、建立备忘录均可通过语音助手实现,用户只需要说出“发短信给XX,内容是XXX”,手机就会自动将内容发送给相应联系人。

设置闹铃

与在电脑上设置提醒类似,用户只需要说出“提醒我晚上9点给媳妇打电话”,手机就会自动设置一个晚上9点的闹钟,并备注为给媳妇打电话,用户没有指定日期的情况下默认就是今天,当然,如果现在已经过了晚上9点,系统会将提醒日期默认为第二天。再也不用担心忘给媳妇打电话而去跪搓衣板了。

播放音乐

用户可以直接要求语音助手播放音乐,如果用户本地没有存储相应歌曲,语音助手可以直接在网络上寻找相应歌曲并播放。如用户说“来一首刘德华的恭喜发财”,语音助手可以自动找到并播放了该歌曲。除了这些之外,用户也可以直接使用语音助手进行导航、翻译等工作。

各大公司在推出语音助手软件的同时,也开放了部分语音识别的功能接口,以科大讯飞为例,用户登录

转载请注明:http://www.0431gb208.com/sjszlff/802.html

  • 上一篇文章:
  • 下一篇文章: 没有了