语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术,发展至今已经是一门交叉学科。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。近年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来二十年内,语音识别技术将全面进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
基于行业发展需求,国家知识产权局专利分析普及推广项目语音识别课题组从语音识别的两个关键技术梅尔倒谱系数和深度神经网络、语音识别的两个重要专利申请人微软公司和Nuance公司以及苹果公司和三星公司的语音识别专利诉讼状况分析五个视角出发,对语音识别技术进行了深度剖析。
PART1——梅尔倒谱系数
梅尔倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)是目前语音识别中广泛使用的特征参数,具有以下特征:能有效代表语音特征,具有良好的区分性;特征参数之间有良好的独立性;易于计算,能最好保证语音识别的实时实现。
根据对MFCC专利文献的分析,获得MFCC的技术路线图。技术路线图显示了年~年的一些重要的专利申请。这些专利申请可以分为两类,一类是对MFCC方法上的改进,从单纯使用MFCC到使用MFCC一阶或二阶差分,并且MFCC在不同的识别模型中性能也并不相同,从隐马尔可夫模型到人工神经网络再到现在比较热门的深度神经网络,都有相关申请对其进行研究。另一类就是应用上的创新,随着语音识别日益深入人类生活的各个领域,MFCC的应用范围也随之更加广泛,从单纯对人类语音的识别与合成,到对多媒体中的音乐、歌曲的分类、音视频同步、人机交互、实时通信,到处都能看到MFCC的身影。
PART2——深度神经网络
深度神经网络(DNN)是近年来机器学习研究中的一个最令人瞩目的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、语音和文本。
从深度神经网络全球各技术分支申请量年代图中可以看出,关于深度神经网络的申请最早出现在图像识别领域,并且所占比重也最大。深度神经网络在语音识别中的应用位居第二,申请量为32项,占全球总量的13%。虽然比起图像识别方面的申请,语音识别的申请量在绝对数量上少了很多,但并不表示其受重视程度就低。相反,近些年来许多大公司,如苹果、谷歌、微软公司、百度等在语音识别上开始发力,图形计算器能力的突飞猛进使得深度神经网络令人生畏的计算复杂度不再成为问题,所以一些走的比较快的语音厂商已经急不可待将深度神经网络作为其提高语音服务质量的杀手锏了。
PART3——微软公司
微软公司作为全球最大的PC软件公司,在其推出的众多操作系统中,越来越重视语音识别技术的开发与应用,极大促进了语音识别技术的进一步竞争和发展。
微软公司在全球申请和中国申请的发展态势整体上是对应的,中国是微软在全球市场的重要组成部分。虽然微软公司在中国的专利布局晚于全球市场,但其在中国市场的申请量一直处于较高的水平,可见,中国市场得到微软公司足够的重视,在语音识别领域具有十分广阔的前景。
通过对微软公司语音识别方面专利的分析,我们把微软公司的技术发展历程分为三个阶段。第一阶段~年,微软公司主要是在其产品中集成语音识别的功能。这一阶段的专利申请以语音识别的应用为主,其应用方向包括移动互联网、呼叫中心和教育等。第二阶段~年,是微软公司在语音识别方面技术爆发的阶段,在前端特征处理、声学模型、语言模型、后端处理、识别引擎及语音识别的应用方面都进行了大量的申请。第三阶段~年,微软公司在语音识别各方面的申请量都骤减,除了在语音识别应用领域申请量保持平稳之外,其他技术分支上的申请都很少。在这一阶段,微软公司的市场行为也主要集中在语音识别的应用方面,而在技术研发方面,微软公司似乎进入了一个瓶颈期,对语音识别率和识别速度等方面,都没有出现重大突破。
PART4——Nuance公司
作为全球最大的专门从事语音识别软件、图像处理软件及输入法软件研发、销售的公司,Nuance公司一直是语音自动化市场的领导者,并成为越来越多同行效仿和追赶的对象。
对Nuance公司各技术分支的申请量分布进行统计,可以看出,虽然声学模型方面的申请起步时间较早,但申请量一直处于较低的水平,且申请量起伏不大,只在小范围内波动。与此相似的是识别引擎/解码器和前端特征处理的申请量分布。而作为上层技术的语音识别的应用是关键技术和专利重点布局方向,作为语音内容识别底层技术的语言模型和后端处理也显得尤为重要。
Nuance公司专利布局的基本特点是,立足美国本土,逐渐扩张到日本和中国等重要市场。这反映了Nuance公司的一种发展策略,即首先在核心市场获得知识产权,从而在国际竞争中占据主动,然后向外围市场扩散,从而实现市场份额的最大化。
PART5——苹果公司和三星公司的专利诉讼状况
本诉讼案件分析主要是关于苹果公司针对三星公司的产品发起的两起专利侵权诉讼案件,但是每起专利诉讼案件都是以永久禁令为起点,临时禁令为中间过程,而金钱赔偿为结局。从本质上讲,苹果公司和三星公司的这场围绕智能手机和平板电脑的专利诉讼案件是苹果和安卓两大手机生态系统的对决。该专利诉讼审判结果多次反复,争论点主要围绕三星公司的侵权行为是否给苹果公司带来不可挽回的损失,而负有举证责任的苹果公司不能证明三星公司对苹果公司专利的侵权与苹果公司的不可挽回的损失之间的因果关系,因而,最终该专利诉讼案件都以三星公司侵权而付出金钱赔偿为结局。该结局并不是苹果最想得到的,首先苹果公司想获得的是针对三星公司最新的智能手机和平板电脑的永久禁止令,其次法院所判决的赔偿金额也远远地低于苹果公司在起诉时提出的赔偿金额。表面看,对三星公司的胜诉可以帮助苹果公司暂时遏制竞争对手的势头,但是最终判定输赢的,是市场。(国家知识产权局专利分析普及推广项目语音识别课题组)
(编辑:秦韵,校对:刘珊,美编:曹晨)
预览时标签不可点收录于合集#个上一篇下一篇