谷歌利用AI技术升级Gboard键盘,听

来源：语言识别时间：2024/12/24

目前，该更新只在谷歌Pixel手机上可用，但将来应该会在其他设备上使用。图片来源：谷歌新的AI听写方法逐个字符地输入消息，而非一次一个单词。谷歌正在Pixel手机上更新其Gboard键盘，采用人工智能离线听写。谷歌表示，更新意味着用户可以更快，更可靠地指定电子邮件和文本，而无需担心他们是否已连接到互联网。谷歌语音识别和移动输入小组的研究科学家兼组长FrancoiseBeaufays说：“想象一下，你正走出你的大楼，你想向某人发送一条信息，说‘我要迟到了’。这正是你无法上网的时刻，因为你正从Wi-Fi转向蜂窝网络计划。”随着Gboard的升级，Beaufays告诉Verge，“这个问题已经不存在了。”这可能听起来像一个微不足道的用例，但Beaufays认为语音识别的改进，将慢慢改变我们与移动设备交互的方式。她指出，虽然语音识别近年来有所改善，但它仍然是一项不成熟的技术。它是计算密集型的，这意味着大多数语音识别系统必须通过互联网发送数据，而结果是听写速度缓慢且不可靠。“如果你使用手机键盘，只要连接情况不好就不能点击键盘，”Beaufays说。“你就是不会用那个键盘。”但她说，通过让系统离线，听写将成为一种更自然的选择。为实现这一转变，Google团队花了五年时间研究问题并简化应用程序用于语音识别的AI系统。例如，旧版Gboard的听写软件使用三个独立的组件来模拟音频波形，将声音与音素匹配，然后将这些音素组合成书面输出，更新后的版本将所有这些工作集成到一个步骤中。为了实现这一转变，谷歌的团队花了五年时间研究这个问题，并简化了应用程序用于语音识别的人工智能系统。例如，旧版Gboard的听写软件使用三个独立的组件来模拟音频波形，匹配声音和音素，然后将这些音素组合成书面输出，而更新版本将所有这些工作集成到一个步骤中。新模型还缩小了系统的一部分，称为“解码器图形”，这个组件的功能类似于书中的索引，将音频波形与书面文字相匹配。在Gboard的听写模型的旧版本中，这个解码器图形大小为2GB，对于设备上处理来说太大了。相比之下，新版本仅为80兆字节，小25倍。新模型还将系统中被称为“解码器图”的部分缩小，该组件的功能类似于书中的索引，将音频波形与书面文字进行匹配。在旧版本的Gboard的听写模型中，这个解码器图形大小为2GB，对于设备上处理来说太大了。相比之下，新版本只有80MB，小了25倍。此次升级目前仅限于美式英语听写和Pixel手机，但Beaufays表示，未来这一功能将得到更广泛的应用——扩展AI语音识别的范围。“从技术的角度来看，我认为我们可以在更多的手机上做到这一点，而不仅仅是Pixel，”Beaufays说。“我认为将会发生的事情是，我们可能会在更多的设备(以及更多的语言)上启动它。”原标题：GoogleupgradesGboardkeyboardwithfasterandmorereliableAIdictation作者：JamesVincent编译：郑翊君文章来源：

转载请注明：http://www.0431gb208.com/sjszjzl/8153.html

上一篇文章：失语者可用意念发声,AI脑机接口再

下一篇文章： Google扩展云计算语音转文本服务添加