谷歌发布最新视觉黑科技搜索3D化,代

来源：语言识别时间：2023/6/16

白驳风 http://pf.39.net/xwdt/160319/4793722.html

美国时间5月7日，谷歌年I/O开发者大会在山景城总部开幕，为期三天。

在开幕式上，谷歌宣布了诸多亮点，比如更贴近用户的搜索功能，更强大的AI与语音助手，内置在安卓系统中的语音转文字功能，新款Pixel3a和3aXL中端手机，NestHubMax智能家居设备，还有安卓Q系统更新等等。

“ToBeHelpful”是整场大会的主题之一。因此，无论是产品演示，还是演讲者，几乎全都从安全、隐私和实用的理念出发，透露出与往届I/O大会不同的务实风格。

谷歌AI领军人：JeffDean

即使是最后登场的谷歌AI领军人JeffDean，也是以现有研究成果出发，强调了BERT模型在自然语言处理领域取得的建树，以及AI技术在健康和环境领域的应用潜力，并未带来令人眼前一亮的惊艳机器学习新成果。

不过从另一个角度来看，这或许才是科技本身应有的样子：一项高科技，无论初见有多惊艳，最终只有成为像空气一般的存在，让我们几乎察觉不到它，却又依赖于它，才能让我们开始享受它的价值，进而真正地享受生活。

这也是谷歌年I/O开发者大会带给我们的启示。

图

谷歌I/O大会开场

“黑科技”开场，奠定务实风格

一开场，谷歌就遵循一贯风格，直接亮出了人们喜闻乐见的“黑科技”。

副总裁AparnaChennapragada率先介绍了谷歌的最新视觉技术：巧妙地整合摄像头和增强现实（AR）技术，强化谷歌搜索结果的互动性和实用性。

她在谷歌上搜索出的二维图片，可以直接转换成三维模型，并通过摄像头放在真实环境中。

无论你搜索的是人体骨骼，一双鞋，还是一条鲨鱼，都没问题，只要谷歌制作了3D模型，就可以通过摄像头，展示在现实场景中，供用户查看效果。它们不仅可以活动，还能够接受放大、缩小、运动和转移等操作指令。

可以肯定的是，3D化的搜索结果不仅仅停留在有趣这一阶段，它可以给用户带来更直观的使用体验和感受，加深对物体运作机制的理解程度。

想象一下，如果你想知道心脏长什么样子，除了看到实物，有什么东西能比一个会跳动的、可以放大缩小和分解的立体模型更加形象的呢？尤其是它可以随时随地出现在任何地方，AR技术的价值进一步得到了挖掘。

图

搜索出的大白鲨以AR形式出现在演讲台上

除了强化搜索结果，谷歌还通过GoogleLens程序，让手机摄像头变得更有价值。

如果你新到一家餐馆，不知道有什么特色菜，没关系，只要拿出手机，打开GoogleLens程序，对准菜单，它就可以根据已有点评，标注出大多数人推荐的特色菜。

如果你去法国旅游，却不会法语，看不懂路标，没关系，只要拿出手机，打开GoogleLens程序，对准路标，它就可以识别上面的法语，直接翻译成中文和英语等十多种语言，还可以直接朗读出来，让语言不再成为交流和旅游的障碍。

如果你想看菜谱学做菜，没问题，GoogleLens配合食谱制造商，录制预先制作的烹饪视频，只要将镜头对准菜谱文字，就会有实际演示视频跳出来，为你展示如何操作。

这些都是非常贴近日常生活的实用功能，如果实际操作效果与演示效果相符，那么将极大地方便我们的生活。

图

GoogleLens可以翻译多种语言的不同标志

谷歌在现场播放了一段视频，讲述了印度的试点项目。视频中，一名不识字的印度母亲依靠着GoogleLens程序，终于可以以听的方式理解书上的内容，孩子的作业，路上的标识，餐馆的菜单等等，最后无需别人的帮助，单独完成很多任务。

虽然在普通人看来，她完成的都是些琐碎小事，比如去ATM取钱和预订火车票，但对于她来说，这就像打开了生活的另一扇门。

由此可见，谷歌贯彻的“ToBeHelpful”的理念，意味着技术应该能够真正帮助有需要的人提高生活质量。

图

印度母亲使用GoogleLens帮助自己看懂包装盒上的字

谷歌最后强调，这种技术结合了自然语言处理、机器视觉、以及谷歌20多年来的搜索信息才能实现，但代码只有KB左右，所以无需高端设备就可以运行。

这项功能将加入GoogleGo应用中。对视觉障碍者，以及不会外语的人来说，这无疑是获取信息的新方式。目前，GoogleGo已经能支持数十种语言，售价为35美元。

不得不说，谷歌选择用直观的视觉技术作为开场，非常机智。不仅契合主题，突出了实用性，还成功塑造出眼前一亮的感觉，调动了观众的积极性。但是稍显可惜的是，这些演示或许是整场大会最有看点的部分了。

更强大、更懂你的AI语音助手

在去年的I/O大会上，谷歌的语音助理技术推出新功能GoogleDuplex，让AI打电话预订餐厅，因其声调语气相当逼真，接电话的人没察觉，该技术一鸣惊人，但引起了一些争议。

在今年的I/O大会上，谷歌也演示了新功能，包括一句话开启驾驶模式和更先进的Duplexontheweb，也就是“Duplex可以帮忙执行网页上的任务”。

例如用户可以呼出语音助理，要求它上网帮你预订一台车，然后语音助理就会进入租车网站，帮你填写姓名、住址，甚至是偏好车型等信息，并要求你确认。

图

语音助手帮你租车

它还利用知识图谱来进行个人推荐。根据用户的使用习惯，AI能更好地理解用户的语音指令，可以通过语音瞬间打开App，并且可以使用连续的语音指令，而不需要每次都说出唤醒词。比如AI可以追踪一连串语音指令：打开地图，播放音乐，打开相册，搜索有动物的照片，发送给某人，它能根据一系列语音指令按顺序完成相应动作。

谷歌认为此功能拥有很大的应用前景，并强调随着深度学习的进展，把AI模型放置到移动装置将是一种范式的转换。他们希望可以把GB的语音识别模型缩小到0.5GB，并放在终端设备上，让用户更方便使用。

不过谷歌表示，目前该功能还在完善阶段，预计今年晚些时间才会公布更多细节，并透露在今年晚些会推出新的Pixel手机。

安卓内置语音转文字功能

作为一家以人性化为核心的公司，谷歌这次格外考虑到了听觉或语言障碍人士，推出了LiveCaption（实时字幕）技术。

图

实时字幕技术演示

该技术由循环神经网络支持，可以把手机中的视频和音频内容实时转化成文字，类似于

转载请注明：http://www.0431gb208.com/sjslczl/5023.html

上一篇文章：一文看懂,如何看脸识人

下一篇文章： 2岁的宝宝像个话痨这是语言爆发期的前