毕业论文
您现在的位置: 语言识别 >> 语言识别优势 >> 正文 >> 正文

谷歌利用AI技术升级Gboard键盘,听

来源:语言识别 时间:2024/12/24
目前,该更新只在谷歌Pixel手机上可用,但将来应该会在其他设备上使用。图片来源:谷歌新的AI听写方法逐个字符地输入消息,而非一次一个单词。谷歌正在Pixel手机上更新其Gboard键盘,采用人工智能离线听写。谷歌表示,更新意味着用户可以更快,更可靠地指定电子邮件和文本,而无需担心他们是否已连接到互联网。谷歌语音识别和移动输入小组的研究科学家兼组长FrancoiseBeaufays说:“想象一下,你正走出你的大楼,你想向某人发送一条信息,说‘我要迟到了’。这正是你无法上网的时刻,因为你正从Wi-Fi转向蜂窝网络计划。”随着Gboard的升级,Beaufays告诉Verge,“这个问题已经不存在了。”这可能听起来像一个微不足道的用例,但Beaufays认为语音识别的改进,将慢慢改变我们与移动设备交互的方式。她指出,虽然语音识别近年来有所改善,但它仍然是一项不成熟的技术。它是计算密集型的,这意味着大多数语音识别系统必须通过互联网发送数据,而结果是听写速度缓慢且不可靠。“如果你使用手机键盘,只要连接情况不好就不能点击键盘,”Beaufays说。“你就是不会用那个键盘。”但她说,通过让系统离线,听写将成为一种更自然的选择。为实现这一转变,Google团队花了五年时间研究问题并简化应用程序用于语音识别的AI系统。例如,旧版Gboard的听写软件使用三个独立的组件来模拟音频波形,将声音与音素匹配,然后将这些音素组合成书面输出,更新后的版本将所有这些工作集成到一个步骤中。为了实现这一转变,谷歌的团队花了五年时间研究这个问题,并简化了应用程序用于语音识别的人工智能系统。例如,旧版Gboard的听写软件使用三个独立的组件来模拟音频波形,匹配声音和音素,然后将这些音素组合成书面输出,而更新版本将所有这些工作集成到一个步骤中。新模型还缩小了系统的一部分,称为“解码器图形”,这个组件的功能类似于书中的索引,将音频波形与书面文字相匹配。在Gboard的听写模型的旧版本中,这个解码器图形大小为2GB,对于设备上处理来说太大了。相比之下,新版本仅为80兆字节,小25倍。新模型还将系统中被称为“解码器图”的部分缩小,该组件的功能类似于书中的索引,将音频波形与书面文字进行匹配。在旧版本的Gboard的听写模型中,这个解码器图形大小为2GB,对于设备上处理来说太大了。相比之下,新版本只有80MB,小了25倍。此次升级目前仅限于美式英语听写和Pixel手机,但Beaufays表示,未来这一功能将得到更广泛的应用——扩展AI语音识别的范围。“从技术的角度来看,我认为我们可以在更多的手机上做到这一点,而不仅仅是Pixel,”Beaufays说。“我认为将会发生的事情是,我们可能会在更多的设备(以及更多的语言)上启动它。”原标题:GoogleupgradesGboardkeyboardwithfasterandmorereliableAIdictation作者:JamesVincent编译:郑翊君文章来源:

转载请注明:http://www.0431gb208.com/sjszjzl/8153.html