毕业论文
您现在的位置: 语言识别 >> 语言识别前景 >> 正文 >> 正文

微软李笛为什么说画家小冰是最艰难的一次养

来源:语言识别 时间:2023/7/25

“小冰学习绘画是我所领导的团队目前为止进行的时间最长、最艰苦的一个项目。”微软小冰研发团队在今年5月微软小冰人工智能创造媒体说明会上表示。

被微软小冰研发团队视为耗时最长、最艰苦的项目的绘画模型,是微软小冰针对视觉能力攻克的模型,也是继文本、语音之后的第三类AI模型。据官方资料显示,这一模型通过对过往四百年艺术史上位人类画家画作的学习,可以独立完成%原创绘画作品,接近专业人类画家水准。

与此同时,这一模型无论是从模型设计的技术性、复杂性,还是从推广应用、产品化上而言,都与此前两类内容创造模型(基于文本、语音的模型)有所不同。当然,也并非完全不同。

就三者(基于文本、语音、视觉的模型)的相同与不同,微软(亚洲)互联网工程院副院长,微软小冰全球产品线负责人李笛在接受雷锋网采访时总结称,“理念上极其相似,细节上完全不同。”

然而,微软为何要为小冰构建一个绘画模型?画家小冰项目技术难点在哪里?小冰绘画模型与此前两个模型技术实现上有何不同?少女画家小冰有怎样的逻辑思维?……

雷锋网带着这些问题,来到微软中国研发集团总部,向微软(亚洲)互联网工程院副院长、微软小冰全球产品线负责人李笛寻求答案。

微软(亚洲)互联网工程院副院长、微软小冰全球产品线负责人李笛

关于画家小冰的最初构想

微软小冰是微软打造的人工智能系统,有所不同的是,在针对微软小冰构建模型时,是先找到产业中的落地需求,然后反推出一个概念模型,进行技术攻克,最后一步是量产模型推广。整体逻辑可以视为:产业需求——概念模型——量产模型。

李笛告诉雷锋网,微软先看到金融领域对文本生成的需求,随后有了小冰的概念模型(诗人小冰),之后有了推广到相关应用领域的文本生成模型;此次也是看到在纹样设计等方面的需求,因而有了绘画模型(画家小冰)。

雷锋网:微软为什么会选择为小冰构建这样一个绘画模型,最初构想是怎样的?

李笛:在微软小冰人工智能创造这一分支上,外界看到的是我们先有一个概念模型,例如写诗,但往往实际情况并非如此。

实际上,我们是先在实际产业中找到一个量产计划,例如微软在实际产业中看到金融文本生成的需求,制定了相应的计划,与此同时,我们会找一个这个领域的概念模型(诗人小冰),在攻克这一模型的过程中,我们会得到很多技术积累,让我们可以把这个量产模型(金融文本生成模型)做好。

此前我们针对语音、文本进行了模型设计及产业化落地,此次针对视觉方面的绘画模型,也是以这样的理念完成的产品需求反推,从而进行概念模型打造、量产模型构建。

雷锋网:据微软官方之前在发布会上公布的数据显示,小冰通过对位人类画家的画作学习,构建了这一绘画模型,具体这些训练的数据(位人类画家的画作)是怎样的一个年代分布?

李笛:过去年到过去年之间,我们比较有意识地规避了当代的艺术家。

少女画家小冰以「一个人的北京」为题创作的画作

雷锋网:小冰的画作都比较抽象,为什么会选择这样的绘画风格,而不是更受大众欢迎的现代风格画作?

李笛:一方面,我们的模型选择是与工业化应用和内容产业是分不开的;另一方面,艺术不是人工智能需要的,但是人工智能拥有高并发、质量稳定的特点,可以对应到内容产业,也是内容产业很必要的。

小冰绘画风格基本涵盖从古典到抽象风格,这其实与我们当时构建小冰诗人模型时选择现代诗,没有选择古诗词的原因类似。古诗词的规则性更强,这对于我们当时要做的量产模型(诸如歌词生成、金融文本生成)的价值有限。

绘画模型对应到产业应用中的是诸如纺织品设计的产品设计领域,如果用当代的艺术形式做纺织品设计,量太小,无法形成规模化效益。这类设计更适合人类艺术家来完成。而抽象、古典的绘画艺术形式在纺织品纹样设计上更具有传承价值。

三个模型+溯源算法,撑起小冰绘画模型硬核

说到小冰绘画模型的硬核,自然少不了其情感计算框架。其中,人工智能创造是小冰情感计算框架的一个分支。针对人工智能创造这一分支,李笛又将其分为两个分支,“一个分支是攀登艺术概念巅峰,诸如唱歌、写诗、绘画等;另一个分支是工程化量产(偏重内容产业),例如金融文本生成、电台节目、有声读物,以金融行业文本生成为例,目前国内90%的金融交易员用的都是我们的金融文本生成模型。”

小冰绘画模型正属于前者,是在艺术领域的一个AI模型,前文有提到,微软的思路是以这样的训练出来的AI模型去规模化适应多产业需求,类似一个更为复杂的通用模型的概念。

而在同为AI绘画模型领域中,小冰绘画模型也并非首创,早在年10月佳士得的拍卖会上,由AI创作的画作EdmondBelamy(《埃德蒙·贝拉米肖像》)曾在佳士得拍卖,预计售价会在到00美元之间,实际成交额为43.25万美元。其创作团队Obvious运用GAN(GenerativeAdversarialNetworks,生成式对抗网络)已经创作了11副画作。

Obvious团队成员之一Caselles-Dupré此前曾表示:“该系统由两部分组成,一边是生成器,另一边是鉴别器。我们为该系统提供了14世纪到20世纪之间的张肖像画数据集。生成器根据这个数据集生成新图像,然后鉴别器尝试识别人类画的肖像与生成器创建的图像之间的差异。我们的目的是骗过鉴别器,让它认为生成的新图像是真实的肖像,并得到这样一幅画作。”

年10月25日在佳士得拍得43.25万美元的AI画作

雷锋网(

转载请注明:http://www.0431gb208.com/sjsbszl/5417.html