毕业论文
您现在的位置: 语言识别 >> 语言识别市场 >> 正文 >> 正文

谷歌宣布AI进展文本生成视频,支持100

来源:语言识别 时间:2024/12/24
·Wordcraft可以挑战专业作家,使用LaMDA作为工具来写实验性小说。但写完整的故事不太现实,更适合用来添加“佐料”。·谷歌正在建立一个在多种语言基础上训练的通用语音模型,并称这是“目前在语音模型中看到的最大的语言模型覆盖范围”。谷歌11月2日宣布了其在人工智能(AI)方面的各项新进展,涉及生成性AI、语言翻译、健康AI和灾难管理。其中,首次展示的文字生成视频的渲染,帮助作者撰写文章的Wordcraft,以及建立支持世界种语言的翻译模型是几个亮点。当天举行的谷歌人工智能活动还重点讨论了建立负责任的人工智能的努力,特别是在控制和安全方面。11月2日,谷歌首席执行官桑达尔·皮查伊(SundarPichai)在视频中讲话。图片来源:谷歌谷歌首次展示Imagen视频谷歌研究院首席科学家、“谷歌大脑”团队研究总监道格拉斯·埃克(DouglasEck)分享了谷歌生成性人工智能的各种进展,包括发布其文本到图像的人工智能系统。相比DALL-E2或StabilityAI,谷歌在这方面的努力相对谨慎而缓慢。虽然谷歌Imagen尚未向公众开放,但该公司宣布将在其AITestKitchen应用程序中添加有限的形式,作为收集早期反馈的一种方式。该公司展示了一个名为CityDreamer的演示,其中用户可以生成围绕一个主题设计的城市图像。CityDreamer,用户可以生成围绕一个主题设计的城市图像。此外,在上个月宣布的文字生成视频工作的基础上,谷歌首次分享了一个视频的渲染,这段视频分享了谷歌两个互补的文字生成视频的研究方法——ImagenVideo和Phenaki,这一成果结合了Phenaki用一连串文字提示生成视频的能力和Imagen的高分辨率细节。埃克说:“我认为,我们可以谈论用超级分辨率视频讲述这样的长篇故事,不仅仅是来自一个提示,而是一连串的提示,用一种新的方式讲故事,这很了不起。”他补充说,他对电影制片人或用视频讲故事的人如何利用这项技术感到兴奋。谷歌展示的文字生成视频的样片截屏,目前看起来分辨率并不高。图片来源:谷歌取代作家的文字工具?在文本领域,埃克还讨论了LaMDA对话引擎和Wordcraft作家工作坊,该工作坊可以挑战专业作家,使用LaMDA作为工具来写实验性小说。埃克说,谷歌很快就会发布这方面的研究论文。为了测试Wordcraft,谷歌举办了一个有13位专业作家参加的研讨会,以了解该原型的工作情况。虽然作家们似乎很欣赏Wordcraft激发新想法的方式,但他们一致认为这个工具不会很快取代作家。这个工具在坚持叙事风格方面并不出色,写出的文章文采一般或老套。用LaMDA来写完整的故事不太现实,但埃克说,使用它来添加“佐料”更有用,将其定义为一个“有目的的文本编辑器”。用户可以提示Wordcraft改写短语,或指导它使一个句子更有趣。简而言之,它有点像把一个编辑器和写作伙伴包装成一个人工智能工具。科技媒体TheVerge的编辑上手测试了一下Wordcraft,结果写出的文章有点超现实主义。比如,在尝试写一个企鹅保护孩子的故事时,企鹅的孩子前面被吃掉了,后面又漂浮在海上,前后矛盾。埃克还强调了谷歌使用人工智能生成代码的努力,以及最近推出的AudioLM:无需乐谱,从输入的任何音频片段中延伸出更多音频。还有最近宣布的文本到三维渲染的DreamFusion,它将Imagen与NeRF的三维能力结合起来。埃克说:“我从未见过生成领域有如此多的进展,其速度真的令人难以置信。”谷歌正在建立通用的语音翻译器在回顾了谷歌在语言人工智能研究方面的各种进展之后,“谷歌大脑”的领导人祖宾·加拉马尼(ZoubinGhahramani)宣布,该公司正在努力反映世界语言的多样性,并尝试建立一个支持世界种最常用语言的模型。此外,谷歌正在建立一个在多种语言基础上训练的通用语音模型,并称这是“目前在语音模型中看到的最大的语言模型覆盖范围”。所有这些努力“将是一个多年的旅程”,他说,“但这个项目将为使基于语言的人工智能对每个人有帮助奠定关键基础。”除此之外,谷歌还推出一个新的洪水监控平台,将尝试分析大型天气数据集,显示可能发生洪水的时间和地点。谷歌还将扩大对卫星图像的使用,以训练其模型更好地识别和跟踪野火的蔓延。对负责任的人工智能的强烈

转载请注明:http://www.0431gb208.com/sjszlff/8167.html

  • 上一篇文章:
  • 下一篇文章: 没有了