毕业论文
您现在的位置: 语言识别 >> 语言识别资源 >> 正文 >> 正文

谷歌发布最新视觉黑科技搜索3D化,代

来源:语言识别 时间:2023/6/16
白驳风 http://pf.39.net/xwdt/160319/4793722.html

美国时间5月7日,谷歌年I/O开发者大会在山景城总部开幕,为期三天。

在开幕式上,谷歌宣布了诸多亮点,比如更贴近用户的搜索功能,更强大的AI与语音助手,内置在安卓系统中的语音转文字功能,新款Pixel3a和3aXL中端手机,NestHubMax智能家居设备,还有安卓Q系统更新等等。

“ToBeHelpful”是整场大会的主题之一。因此,无论是产品演示,还是演讲者,几乎全都从安全、隐私和实用的理念出发,透露出与往届I/O大会不同的务实风格。

谷歌AI领军人:JeffDean

即使是最后登场的谷歌AI领军人JeffDean,也是以现有研究成果出发,强调了BERT模型在自然语言处理领域取得的建树,以及AI技术在健康和环境领域的应用潜力,并未带来令人眼前一亮的惊艳机器学习新成果。

不过从另一个角度来看,这或许才是科技本身应有的样子:一项高科技,无论初见有多惊艳,最终只有成为像空气一般的存在,让我们几乎察觉不到它,却又依赖于它,才能让我们开始享受它的价值,进而真正地享受生活。

这也是谷歌年I/O开发者大会带给我们的启示。

谷歌I/O大会开场

“黑科技”开场,奠定务实风格

一开场,谷歌就遵循一贯风格,直接亮出了人们喜闻乐见的“黑科技”。

副总裁AparnaChennapragada率先介绍了谷歌的最新视觉技术:巧妙地整合摄像头和增强现实(AR)技术,强化谷歌搜索结果的互动性和实用性。

她在谷歌上搜索出的二维图片,可以直接转换成三维模型,并通过摄像头放在真实环境中。

无论你搜索的是人体骨骼,一双鞋,还是一条鲨鱼,都没问题,只要谷歌制作了3D模型,就可以通过摄像头,展示在现实场景中,供用户查看效果。它们不仅可以活动,还能够接受放大、缩小、运动和转移等操作指令。

可以肯定的是,3D化的搜索结果不仅仅停留在有趣这一阶段,它可以给用户带来更直观的使用体验和感受,加深对物体运作机制的理解程度。

想象一下,如果你想知道心脏长什么样子,除了看到实物,有什么东西能比一个会跳动的、可以放大缩小和分解的立体模型更加形象的呢?尤其是它可以随时随地出现在任何地方,AR技术的价值进一步得到了挖掘。

搜索出的大白鲨以AR形式出现在演讲台上

除了强化搜索结果,谷歌还通过GoogleLens程序,让手机摄像头变得更有价值。

如果你新到一家餐馆,不知道有什么特色菜,没关系,只要拿出手机,打开GoogleLens程序,对准菜单,它就可以根据已有点评,标注出大多数人推荐的特色菜。

如果你去法国旅游,却不会法语,看不懂路标,没关系,只要拿出手机,打开GoogleLens程序,对准路标,它就可以识别上面的法语,直接翻译成中文和英语等十多种语言,还可以直接朗读出来,让语言不再成为交流和旅游的障碍。

如果你想看菜谱学做菜,没问题,GoogleLens配合食谱制造商,录制预先制作的烹饪视频,只要将镜头对准菜谱文字,就会有实际演示视频跳出来,为你展示如何操作。

这些都是非常贴近日常生活的实用功能,如果实际操作效果与演示效果相符,那么将极大地方便我们的生活。

GoogleLens可以翻译多种语言的不同标志

谷歌在现场播放了一段视频,讲述了印度的试点项目。视频中,一名不识字的印度母亲依靠着GoogleLens程序,终于可以以听的方式理解书上的内容,孩子的作业,路上的标识,餐馆的菜单等等,最后无需别人的帮助,单独完成很多任务。

虽然在普通人看来,她完成的都是些琐碎小事,比如去ATM取钱和预订火车票,但对于她来说,这就像打开了生活的另一扇门。

由此可见,谷歌贯彻的“ToBeHelpful”的理念,意味着技术应该能够真正帮助有需要的人提高生活质量。

印度母亲使用GoogleLens帮助自己看懂包装盒上的字

谷歌最后强调,这种技术结合了自然语言处理、机器视觉、以及谷歌20多年来的搜索信息才能实现,但代码只有KB左右,所以无需高端设备就可以运行。

这项功能将加入GoogleGo应用中。对视觉障碍者,以及不会外语的人来说,这无疑是获取信息的新方式。目前,GoogleGo已经能支持数十种语言,售价为35美元。

不得不说,谷歌选择用直观的视觉技术作为开场,非常机智。不仅契合主题,突出了实用性,还成功塑造出眼前一亮的感觉,调动了观众的积极性。但是稍显可惜的是,这些演示或许是整场大会最有看点的部分了。

更强大、更懂你的AI语音助手

在去年的I/O大会上,谷歌的语音助理技术推出新功能GoogleDuplex,让AI打电话预订餐厅,因其声调语气相当逼真,接电话的人没察觉,该技术一鸣惊人,但引起了一些争议。

在今年的I/O大会上,谷歌也演示了新功能,包括一句话开启驾驶模式和更先进的Duplexontheweb,也就是“Duplex可以帮忙执行网页上的任务”。

例如用户可以呼出语音助理,要求它上网帮你预订一台车,然后语音助理就会进入租车网站,帮你填写姓名、住址,甚至是偏好车型等信息,并要求你确认。

语音助手帮你租车

它还利用知识图谱来进行个人推荐。根据用户的使用习惯,AI能更好地理解用户的语音指令,可以通过语音瞬间打开App,并且可以使用连续的语音指令,而不需要每次都说出唤醒词。比如AI可以追踪一连串语音指令:打开地图,播放音乐,打开相册,搜索有动物的照片,发送给某人,它能根据一系列语音指令按顺序完成相应动作。

谷歌认为此功能拥有很大的应用前景,并强调随着深度学习的进展,把AI模型放置到移动装置将是一种范式的转换。他们希望可以把GB的语音识别模型缩小到0.5GB,并放在终端设备上,让用户更方便使用。

不过谷歌表示,目前该功能还在完善阶段,预计今年晚些时间才会公布更多细节,并透露在今年晚些会推出新的Pixel手机。

安卓内置语音转文字功能

作为一家以人性化为核心的公司,谷歌这次格外考虑到了听觉或语言障碍人士,推出了LiveCaption(实时字幕)技术。

实时字幕技术演示

该技术由循环神经网络支持,可以把手机中的视频和音频内容实时转化成文字,类似于

转载请注明:http://www.0431gb208.com/sjslczl/5023.html