微软李笛为什么说画家小冰是最艰难的一次养

来源：语言识别时间：2023/7/25

“小冰学习绘画是我所领导的团队目前为止进行的时间最长、最艰苦的一个项目。”微软小冰研发团队在今年5月微软小冰人工智能创造媒体说明会上表示。

被微软小冰研发团队视为耗时最长、最艰苦的项目的绘画模型，是微软小冰针对视觉能力攻克的模型，也是继文本、语音之后的第三类AI模型。据官方资料显示，这一模型通过对过往四百年艺术史上位人类画家画作的学习，可以独立完成%原创绘画作品，接近专业人类画家水准。

与此同时，这一模型无论是从模型设计的技术性、复杂性，还是从推广应用、产品化上而言，都与此前两类内容创造模型（基于文本、语音的模型）有所不同。当然，也并非完全不同。

就三者（基于文本、语音、视觉的模型）的相同与不同，微软（亚洲）互联网工程院副院长，微软小冰全球产品线负责人李笛在接受雷锋网采访时总结称，“理念上极其相似，细节上完全不同。”

然而，微软为何要为小冰构建一个绘画模型？画家小冰项目技术难点在哪里？小冰绘画模型与此前两个模型技术实现上有何不同？少女画家小冰有怎样的逻辑思维？……

雷锋网带着这些问题，来到微软中国研发集团总部，向微软（亚洲）互联网工程院副院长、微软小冰全球产品线负责人李笛寻求答案。

微软（亚洲）互联网工程院副院长、微软小冰全球产品线负责人李笛

关于画家小冰的最初构想

微软小冰是微软打造的人工智能系统，有所不同的是，在针对微软小冰构建模型时，是先找到产业中的落地需求，然后反推出一个概念模型，进行技术攻克，最后一步是量产模型推广。整体逻辑可以视为：产业需求——概念模型——量产模型。

李笛告诉雷锋网，微软先看到金融领域对文本生成的需求，随后有了小冰的概念模型（诗人小冰），之后有了推广到相关应用领域的文本生成模型；此次也是看到在纹样设计等方面的需求，因而有了绘画模型（画家小冰）。

雷锋网：微软为什么会选择为小冰构建这样一个绘画模型，最初构想是怎样的？

李笛：在微软小冰人工智能创造这一分支上，外界看到的是我们先有一个概念模型，例如写诗，但往往实际情况并非如此。

实际上，我们是先在实际产业中找到一个量产计划，例如微软在实际产业中看到金融文本生成的需求，制定了相应的计划，与此同时，我们会找一个这个领域的概念模型（诗人小冰），在攻克这一模型的过程中，我们会得到很多技术积累，让我们可以把这个量产模型（金融文本生成模型）做好。

此前我们针对语音、文本进行了模型设计及产业化落地，此次针对视觉方面的绘画模型，也是以这样的理念完成的产品需求反推，从而进行概念模型打造、量产模型构建。

雷锋网：据微软官方之前在发布会上公布的数据显示，小冰通过对位人类画家的画作学习，构建了这一绘画模型，具体这些训练的数据（位人类画家的画作）是怎样的一个年代分布？

李笛：过去年到过去年之间，我们比较有意识地规避了当代的艺术家。

少女画家小冰以「一个人的北京」为题创作的画作

雷锋网：小冰的画作都比较抽象，为什么会选择这样的绘画风格，而不是更受大众欢迎的现代风格画作？

李笛：一方面，我们的模型选择是与工业化应用和内容产业是分不开的；另一方面，艺术不是人工智能需要的，但是人工智能拥有高并发、质量稳定的特点，可以对应到内容产业，也是内容产业很必要的。

小冰绘画风格基本涵盖从古典到抽象风格，这其实与我们当时构建小冰诗人模型时选择现代诗，没有选择古诗词的原因类似。古诗词的规则性更强，这对于我们当时要做的量产模型（诸如歌词生成、金融文本生成）的价值有限。

绘画模型对应到产业应用中的是诸如纺织品设计的产品设计领域，如果用当代的艺术形式做纺织品设计，量太小，无法形成规模化效益。这类设计更适合人类艺术家来完成。而抽象、古典的绘画艺术形式在纺织品纹样设计上更具有传承价值。

三个模型+溯源算法，撑起小冰绘画模型硬核

说到小冰绘画模型的硬核，自然少不了其情感计算框架。其中，人工智能创造是小冰情感计算框架的一个分支。针对人工智能创造这一分支，李笛又将其分为两个分支，“一个分支是攀登艺术概念巅峰，诸如唱歌、写诗、绘画等；另一个分支是工程化量产（偏重内容产业），例如金融文本生成、电台节目、有声读物，以金融行业文本生成为例，目前国内90%的金融交易员用的都是我们的金融文本生成模型。”

小冰绘画模型正属于前者，是在艺术领域的一个AI模型，前文有提到，微软的思路是以这样的训练出来的AI模型去规模化适应多产业需求，类似一个更为复杂的通用模型的概念。

而在同为AI绘画模型领域中，小冰绘画模型也并非首创，早在年10月佳士得的拍卖会上，由AI创作的画作EdmondBelamy（《埃德蒙·贝拉米肖像》）曾在佳士得拍卖，预计售价会在到00美元之间，实际成交额为43.25万美元。其创作团队Obvious运用GAN（GenerativeAdversarialNetworks，生成式对抗网络）已经创作了11副画作。

Obvious团队成员之一Caselles-Dupré此前曾表示：“该系统由两部分组成，一边是生成器，另一边是鉴别器。我们为该系统提供了14世纪到20世纪之间的张肖像画数据集。生成器根据这个数据集生成新图像，然后鉴别器尝试识别人类画的肖像与生成器创建的图像之间的差异。我们的目的是骗过鉴别器，让它认为生成的新图像是真实的肖像，并得到这样一幅画作。”

年10月25日在佳士得拍得43.25万美元的AI画作

雷锋网(

转载请注明：http://www.0431gb208.com/sjsbszl/5417.html

上一篇文章：破解延时与反馈体验端痛点TWS耳

下一篇文章：赠书计算机能模拟人类心智吗