人工智能研究小组OpenAI创建了一个新的版本的DALL-E,即文本到图像生成程序。dell-e2的特点是比原始系统具有更高的分辨率和更低的延迟,它可以生成描述用户所写描述的图片。它还包括新的功能,比如编辑现有的图像。与OpenAI之前的工作一样,该工具没有直接向公众发布。但研究人员可以在线注册预览该系统,OpenAI希望以后可以在第三方应用中使用该系统。
最早的DALL-E是艺术家“萨尔瓦多Dalí”和机器人“瓦力”的混合词,于年1月首次亮相。这是对人工智能视觉表达概念能力的一次有限但引人注目的测试,从穿着法兰绒衬衫的人体模型到“乌龟做的长颈鹿”或萝卜遛狗的插图,都有。当时,OpenAI表示,它将继续在该系统的基础上构建,同时检查潜在的危险,如图像生成中的偏见或错误信息的产生。它试图使用技术保障和新的内容策略来解决这些问题,同时也减少了计算负载,并推进了模型的基本功能。
dell-e2的新功能之一,inpainting,在更细粒度的级别上应用了dell-e的文本到图像的功能。用户可以从现有的图片开始,选择一个区域,并告诉模型编辑它。例如,你可以在客厅的墙上画一幅画,然后用另一幅画代替它,或者在咖啡桌上放一瓶花。该模型可以填充(或删除)对象,同时考虑房间中阴影的方向等细节。另一个功能,变化,有点像一个图片搜索工具,用来搜索不存在的图片。用户可以上传一个开始的图像,然后创建一系列类似的变化。它们还可以混合两张图片,生成包含这两种元素的图片。生成的图像为x像素,大大超过了原始模型的x像素。
dell-e2建立在CLIP上,这是一种计算机视觉系统,OpenAI去年也发布了该系统。OpenAI的研究科学家普拉夫拉·达里瓦尔(PrafullaDhariwal)说:“DALL-E1只是采用了我们从语言中提取的GPT-3方法,并将其应用于生成一幅图像:我们将图像压缩成一系列单词,我们刚刚学会了预测接下来会发生什么。”他指的是许多文本AI应用使用的GPT模型。但是,文字匹配并不一定能捕捉到人们认为最重要的品质,而且预测过程限制了图像的真实性。CLIP的设计目的是像人类一样查看图像并总结它们的内容,而OpenAI在这个过程中不断重复创建“unCLIP”——一个从描述开始并以图像的方式工作的倒置版本。dall-e2使用一种称为扩散的过程生成图像,Dhariwal描述为从一个“点袋”开始,然后填充一个越来越详细的图案。
有趣的是,一份关于unCLIP的草案说,它在一定程度上抵制了CLIP的一个非常有趣的弱点:事实是,人们可以通过给一个物体(比如一个GrannySmith苹果)贴上一个表示其他东西(比如iPod)的单词来欺骗模型的识别能力。作者说,变异工具“仍然会以很高的概率生成苹果的图片”,即使使用了标签错误的图片,CLIP也无法识别这是一个“GrannySmith”。相反,“该模型从未生成ipod的图片,尽管这个标题的相对预测概率非常高。”
戴尔-e的完整模型从未公开发布,但在过去的一年中,其他开发人员已经打磨了他们自己的工具,模仿了它的一些功能。最受欢迎的主流应用程序之一是Wombo的Dream移动应用程序,它可以生成用户描述的各种艺术风格的图片。OpenAI今天不会发布任何新模型,但开发人员可以利用它的技术发现来更新他们自己的工作。
OpenAI实现了一些内置的保护措施。该模型的训练对象是剔除了一些不良内容的数据,理想情况下限制了其产生不良内容的能力。有一个水印表明作品是人工智能生成的,尽管理论上它可能会被剪掉。作为一种防止虐待的功能,模特也不能根据一个名字生成任何可识别的面孔——即使是要求像蒙娜丽莎这样的东西,显然也会返回真实面孔的变体。
dall-e2将由经过审查的合作伙伴进行测试,并附带一些注意事项。用户被禁止上传或生成“非g级”和“可能造成伤害”的图像,包括任何涉及仇恨符号、裸体、淫秽手势,或“与正在进行的重大地缘政治事件相关的重大阴谋或事件”。他们还必须披露人工智能在生成图像中的作用,而且他们不能通过应用程序或网站向其他人提供生成的图像——所以你最初不会看到一个dall-e驱动的版本,比如Dream。但OpenAI希望以后将其加入到该组织的API工具集中,使其能够支持第三方应用程序。“我们希望在这里继续进行分阶段的过程,这样我们就可以从我们得到的反馈中继续评估如何安全地发布这项技术,”达里瓦尔说。
转载请注明:http://www.0431gb208.com/sjsbszl/3380.html