毕业论文
您现在的位置: 语言识别 >> 语言识别介绍 >> 正文 >> 正文

语音识别技术未来方向数据堂

来源:语言识别 时间:2023/2/28

当语音识别技术应用到计算机桌面的时候,这看起来似乎是一个好主意。但是,对于大多数人来说,语音识别还不能取代键盘和鼠标。现在,语音技术正用于一个全新的环境:手机。语音识别技术在手机中的应用将进一步推动这种技术向新的方向发展和应用。这是语音识别技术在台式电脑应用中从来没有涉足的方向。

语音处理Springer手册解释了手机在年代初的情况。尽管那时还有一些局限性,但是,手机经过编程之后能够识别逐个数字的拨号语音,在某种程度上还能识别人的名字。主要问题是内存,因此,大多数手机一次只能识别10个数字或者名字。但是,这些作者指出的另一个问题是这个功能使用的比较少,可能是因为手机厂商在这方面的营销很糟糕。

随着手机的增加内存和增强处理能力,普通手机的识别能力也增强了。三星电子在年发布的售价99美元的SCH-p-型手机增加了语音至文本的听写功能和语音拨号功能。随着内存达到数百MB和存储容量达到数GB,目前这一代智能手机很少受到限制。

另一个关键的进步是网络速度。速度更快的无线网络浪潮抬高了许多大船,包括最新一代的语音处理技术。速度更快的网络能够把语音处理任务从网络迁移到远程服务器。

谷歌语音搜索产品经理AmirMane解释了速度更快的网络是如何帮助谷歌语音应用程序的。他说,由于所有繁重的处理任务都是由谷歌服务器在网络上处理的,我们减少了掌上设备计算能力的限制。

手机语音识别技术目前的状态不仅仅局限于语音拨号。语音启动的功能实际上就包括语音拨号。这是手机上出现的第一个语音识别功能。目前,甚至许多低端手机都有这个功能,尽管这个功能处理手机电话簿中一些不常用的名字的时稍差一些。

数据堂自有版权的行业内高标准语音识别训练数据深受重视和好评。在深刻理解智能家居场景的基础上,数据堂研制了儿童语音识别、多语种混合识别以及远场语音识别数据,为智能家居领域的技术创新和升级提供助力。

谷歌语音搜索拥有比以前的语音识别技术更少的限制,因为所有的繁重任务都是由网络服务器完成的。这使谷歌语音搜索等语音驱动的应用程序更可行。例如,如果你说“创战纪电影时间”,你会看到一个网页列出地区编号或者位置。这个应用程序不仅能够识别出这个短语的意思,而且还能提供你的手机(你当前的位置)和网站(上映时间)的信息。

这个应用程序还非常熟悉英语,不用进行训练就能自动分辨出一些词汇的差别。如果我说“摩特里裤(MotleyCrue)乐队”,这个应用程序甚至能在搜索词汇方便使用这个乐队的独特的拼写,尽管它会漏掉变音符号。搜索“Motley’sCrew”,你会得到一个喜剧片。

这就是说谷歌语音识别的限制明显地表明将使你进一步脱离主流的英语。外国人的名字是没有帮助的。语音识别应用程序的另一个问题是环境的噪音。移动用户受环境噪音的影响通常比台式电脑用户多。Nuance公司的Revis称,在充满噪音的户外环境中,语音识别的准确性是一个问题。

未来的方向

询问参加开发语音技术的每一个人下一个巨大的步骤是什么。他们一般会给你一个答案:自然语言处理。

Revis把它解释为理解你的意思的系统,它不仅仅知道你说什么。在会话式的互动模式中,用户说自己要说的话,没有限制用户如何说这个话。他提供了指令或者要求得到信息的例子,如“我在什么地方能够买到美元以下的尼康照相机?”或者“给杰尼发个短信说我晚到20分钟”或者“今天晚上在Morton’s订三个人的地方”。

谷歌的Mane称,在口语对话中提供自然的语言处理是一个双重挑战。首先,你必须识别这些单词,然后,你必须理解这个意思。第一部分变得更加容易了。但是,第二部分仍然很难解决:意思是根据上下文确定的和难以应付的,人类做的语法分析也不是总是成功的。

手机一直是许多技术的孵化器和推动因素,这包括硬件和软件技术。到目前为止,在这个组合中增加语音功能仅产生了逐步的改善,谷歌语音应用程序的很好的功能。

但是,这些改进正逐步地为更重要的进步铺平道路。移动技术为如何聚集这些新技术提供了一个全新的舞台。下一步也许不是一个理解你说的一切事情的手机,而是能够充分理解你说的事情的一个更有用的手机。

转载请注明:http://www.0431gb208.com/sjszlfa/3547.html