AI基础研究的春天,初现春光。
作者|李梅
编辑|陈彩娴
尽管唱衰大模型的声音不绝,但无可否认,近年来人工智能领域的重大突破,都离不开大模型的支撑。
以近日火热的AIGC为例。语言大模型在理解文本语境与知识推理能力上的突飞猛进,是人工智能跨越单一模态,读懂人类描述的语言、进而生成各色精美图像的基石之一。
大模型被诟病之处突出,算力成本与不确定性为最大要点,但与此同时,几乎没有人能否认,在未来五年、甚至十年的智能研究中,大模型必将占有一席之地。美国人工智能学术界将其称为「基础模型」(FoundationModel),在定位上视之为基础研究,重视程度也可见一斑。
然而,由于训练难度与成本的高门槛,大模型在国内的兴起注定只掌握在少数人的手中。一项基础研究的开拓,必须团结尽可能团结的力量,才能推动其进步的速度与质量。尤其在知识注入与多场景通用无阻的追求上,大模型的研究者多多益善。
因此,从去年开始,「开源」AI大模型的呼声也日渐高昂。唯有开源,才能降低大模型的研究门槛;也唯有开源,才能促进与大模型相匹配的基础设施(如架构、算力、落地设备)建设。
「魔搭」(ModelScope)社区的成立,正是基于这样急切的背景。
在今年的云栖大会上,阿里达摩院与CCF开源发展委员会联合正式推出国内首个AI模型开源社区——魔搭ModelScope,宣布将达摩院近五年苦心研究的多个优质模型开放给整个中国的AI研究者与团队,共同促进中国的AI基础研究。
这其中,多个模型就有十多个大模型。这一举动,被业界称为大模型的「家底秀」,而魔搭社区的使命是「开源」,阿里真的是把家底给亮出来了!
图注:周靖人在ModelScope魔搭发布会上
阿里巴巴集团资深副总裁、阿里达摩院副院长周靖人告诉AI科技评论:「我们的口号是AIforEveryone。」
以大模型为例。他们认为,大模型的研发不应该是一场少数机构的竞赛,而应该通过大小模型的协同进化走向更高级的应用,尤其是适应中国本土需求的应用。
年GPT-3出现以来,国内的研究者只能仰仗英语大模型,文化与语言的鸿沟成为模仿西方技术成果时的消极产物,中文大模型也呼之欲出。魔搭将现有为数不多的中文大模型开放后,AI领域的研究者基于中文大模型自由开发满足下游任务的小模型时,能更好解决东方的实际问题。
魔搭社区的成立,是中国人工智能领域一个划时代的故事开篇。
1AI突破的风口,在应用
两年前,《数学之美》作者吴军在接受AI科技评论的访谈时就曾说过:深度学习大的理论突破已经走到瓶颈期,AI风口的下一个十年在于应用。
这两年的发展路径,越来越多的落地与应用讨论,也验证了吴军的判断。如今,我们对AI的期待,已经不再只停留在迸发于实验室的那些「AlphaGo时刻」,而且「用起来」,在解决实际生活的问题中创造价值。
那么,AI如何最大程度地发挥价值?
纵观构成人工智能的三驾马车:数据是护城河,隔行如隔山;算力仰仗少数巨头的芯片能力,普通人玩不起;而在模型的竞技场,任何人都可以做点什么。
因此,未来五年,人工智能能大规模应用的风口,在于模型。
然而,以模型为中心的AI技术在落地产业的过程中,正受到两方面的制约,一是在模型的创新侧,二是在模型的应用侧。其中,模型的应用又离不开创新。
算法的创新如今进入一种尴尬境地。持续创新力不足,技术突破凤毛麟角,只局限于少数几个领域,更多的应用场景还等待技术去解锁。
在以前,AI公司针对具体的任务和应用场景来定制并出售模型和解决方案,但这种商业模式正在失去其竞争力。
达摩院基础视觉团队负责人赵德丽对这一点深有感触。他举了一个例子:假如有个任务要实现,那就要研发出个不同的模型,其中的工作量非常之大。一旦研发团队有人离职,相对应的模型就无法维护、迭代,不具备可扩展性,最终蚀断AI应用的链条。
统一底层架构的出现,为上述难题的解决提供了一种路径。
年,谷歌在《AttentionIsAllYouNeed》这篇经典之作中提出Transformer模型,作为一个具备强大通用性的底层架构,它后来衍生出了BERT、GPT-3等预训练语言模型,且参数量飞速增长,将AI带入了大模型时代,如今在语言、视觉、多模态等领域上都已证明了其无限潜力。
今年大火的扩散模型(DiffusionModel)是一个新近的例证,得益于其开源,目前国内外社区涌现出的AI作画应用已经令人目不暇接。
周靖人认为,大模型之所以具备巨大的价值想象空间,是因为大模型本质上是对人类知识体系的积累、抽象与提炼,从而能够接近人类智能。
同时,大模型的底层性使其能够承担起一种「基础设施」的功能,打好AI应用的底座,这也是大模型的另一名号「基础模型」(FoundationModels)所凸显的意义。
如赵德丽所言,「在统一底层架构的范式下,基础研究的价值比以往时候更大。若能研发出一个真正有竞争力的基础模型,整个AI生态都会受益。」也正因如此,一直从事生成模型研究的赵德丽十分看好扩散模型。
基于统一的底层架构所开发的模型将变得可维护、可迭代、可扩展,这样一来,系统级的AI应用才有被创造出来的可能,AI的价值才能被真正兑现。
但目前我们国内的事实是,在「炼」大模型上,暴力堆参有余而架构创新不足,无论是Transformer还是DiffusionModels,这类基础性突破大都生发于国外,国内则更多处于追赶的状态。在「用」大模型上,大模型的潜力也未见爆发,大规模的落地应用还未出现。
要改变这种现状,大模型的基础设施与生态建设尤为重要。在这一点上,国外的进展的确有所领先,例如今年3月谷歌发布了用于训练大模型的底层架构Pathways系统,被谷歌AI掌门人JeffDean寄予了「下一代AI架构」的厚望,次月推出的亿参数的超大规模语言模型PaLM便是在该架构下训练出来的,其超强的推理能力令人惊叹。
不单单是大模型,眼前中国AI的整体研发与应用的未来都指向了一条路:开源开放,以模型为中心提供服务。
2魔搭:模型即服务
魔搭社区的立项,正是为了解决当前中国人工智能研究山头林立、各自为战的局面。
达摩院语音实验室负责人鄢志杰认为,尽管人工智能技术在近年来的落地中暴露出一些问题,但不代表AI的应用走到穷巷:
「现在AI领域的概况,不是泡沫破灭,也不是平台期,而是乱花渐欲迷人眼。我们需要穿越雾里看花,找到再一次启动AI创新与应用两个引擎的钥匙。」
这把钥匙,就是开源。开源的本质是交流,历年来技术的突破都证明了这一途径对更大图景的促进。打通接口,拉平认知,是对整个中国AI发展有积极作用的重要路径。
达摩院很早开始思考这个问题:
周靖人告诉AI科技评论,年3月达摩院发布国内首个千亿参数多模态大模型M6。那时他作为项目主导人,从立项开始就思考如何更好地释放像M6这样的大模型的基础能力。
他思考的结果是:必须要有一个平台作为依托。在内部讨论中,这个想法一出来,就得到了达摩院各个实验室带头人的赞同。因为从技术发展的角度看,这是势在必行的选择,很快达成共识。
于是,从去年开始,在达摩院内部一次又一次的会议上,周靖人不断地与大家讨论如何把「模型即服务」(ModelasaService,MaaS)的理念在一个社区上实现,魔搭也在几次头脑风暴中慢慢成型,并快速成长:
今年4月底立项,达摩院各个工程团队派出人手支援、贡献优质模型;5月30日发布内部PoC版本;8月底外部就已经可以访问。
在9月的开发者评测局上,达摩院的算法专家、架构师和产品经理等都亲自上阵,解答开发者的问题。评测的反馈非常积极,甚至有点超乎大家的预料。
实际上一开始,各个实验室内部也存在一些疑虑,比如「国外已经有HuggingFace了,那我们的魔搭该怎么定位」、「我上传了模型之后,真的会有人来用吗」等等。但当算法人员读到开发者们写下的长文评测时,所有人都倍受鼓舞,他们现在所想的,是要做出更先进的模型,并将其贡献出来,被更多人看见。
魔搭的定位,不是一个「玩具」,而是实实在在的生产力,因为它真正全方位渗透了MaaS理念的本质。
以往模型的开源开放并不彻底,大部分提供AI模型服务的公司通常是以API的形式对外提供模型服务,模型本身并不能下载,大部分还要收费。而且API接口的输出结果较为固定,代码还往往无法真正用在实际业务中,更是难以满足模型的定制化需求,所以AI在各行业的应用广度与深度都会受到限制。
而已有的开源社区的模型覆盖面也比较有限,且没有形成一整套、一站式的模型服务体系,开发者在各个社区之间东一榔头西一棒槌,十分影响效率。
而达摩院这一次,一点也不来「虚」的。
如果说以往的模型服务是一只傻瓜相机,只能按一下快门、获取千篇一律配置下的照片。那么如今达摩院提供的则是一台单反相机,你尽可以调整相机的各种参数,拍摄出万千世界,把自己炼成大摄影家。
具体而言,魔搭社区如何真正把MaaS的理念实践起来,要从模型的整个开发周期讲起。
首先要有能用的模型,足够的模型丰富度是建立MaaS生态的一个首要门槛。在魔搭社区上,有一个方便模型共享、存储和使用的模型库(ModelHub),其中达摩院已经率先贡献了自家多个压箱底的模型,涵盖了自然语言处理、视觉、语音、多模态等多个SOTA模型,「通义」系列的预训练多模态大模型也在其中。
图注:魔搭模型库
这些模型是经过各个算法实验室精挑细选的。鄢志杰告诉我们,达摩院选择开源的模型既「叫好」又「叫座」。
「叫好」是从学术角度而言。算法团队开发出新模型后,不再只是「王婆卖瓜」式地在论文中展示简单的数据,而是把模型在平台上真正开源,甚至训练方式也都倾囊相授,供大家使用和评判。
「叫座」
转载请注明:http://www.0431gb208.com/sjszyzl/4511.html