在今天下午举行的世界人工智能大会科学前沿全体会议上,上海人工智能实验室重磅发布了更为通用的人工智能模型“书生2.0”。全新升级后的“书生”不但“看图更准”,还学会了“理解视频”和“做翻译”,在40多个视觉任务取得了世界领先性能。据悉,以中文为核心的大规模百语翻译开源平台也将在年内推出。“书生2.0”识别图像更精准
发展更为通用的AI技术是人工智能的科技前沿和核心焦点问题。去年11月,上海人工智能实验室发布了“书生”,一个模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。将通用视觉技术体系命名为“书生”,意在体现其如同书生一般的特质,可通过持续学习,举一反三,逐步实现通用视觉领域的融会贯通,最终实现灵活高效的模型部署。
经过近一年的努力,“书生2.0”全新升级,可以更加精准地识别图像,在图像标杆任务上性能取得了显著提升,并在30多种视频任务上取得了领先的性能,还可实现以中文为核心的百种语音翻译。
“实验室正在打造以视觉和自然语言为核心的通用模型技术体系,包括基础理论方法、数据集、模型集、下游任务和应用生态等。”上海人工智能实验室领军科学家乔宇表示,“面向未来,‘书生’期望实现以一个模型谱系完成上千种任务,体系化解决人工智能发展中的诸多瓶颈问题,推动人工智能从单任务单模态可用到多任务多模态安全易用,从感知智能到认知智能的跃迁。”
新一代通用模型“书生2.0”视觉模型更通用、低碳、环保
“书生2.0”通用图像模型基于动态稀疏卷积网络,可以根据不同的视觉任务自适应地调整卷积的位置以及组合方式,从而灵活准确适配不同的视觉任务。
相较“书生1.0”,“书生2.0”在图像检测等视觉标杆任务上的性能取得重大提升,在COCO物体检测、OpenImage物体检测、Cityscapes语义分割上的平均精度提高7.7个点,其中在COCO物体检测任务上取得64.2mAP的高分。以卷积神经网络的方式重新取得图像领域标杆任务的领先性能,也为图像大模型提供了新的方向。
“书生2.0”通用视频模型探索掩码学习和对比学习相结合的训练范式,突破视频自监督学习的性能瓶颈,构建了首个具有体系化动态感知能力的视频大模型,全面覆盖基础视频识别、开放视频感知、时空语义解析三大核心领域。在视频识别、视频时空检测、视频时序定位、视频检索等30多种视频任务上精度世界领先,在视频识别标杆基准库Kinetics上首次取得超越90%的Top1准确率,达到91%。
基于“书生2.0”的通用图像和视频模型,可以广泛应对多种视觉任务和多种场景。在12大类40余种视觉任务中,“书生2.0”模型支撑取得了领先性能,超越了相关领域的国际知名机构。
在达到优异性能的同时,“书生2.0”还实现了使用成本更低、更低碳、更环保的目标。相比达到谷歌的CoCa和微软的SwinV2-G的相似效果,“书生”使用的计算量远远小于前两者,据测算可累计减少碳排放量31余吨。
“书生2.0”在40多种图像和视频任务中取得领先性能以中文为核心,一个框架支持种语言
目前大部分开源翻译模型在中文和其他语种之间的翻译时错误率较高。针对这个痛点,“书生2.0”积累了大量中文为核心的翻译数据,提出了异步多分枝训练技术,构建了以中文为核心的百语通用翻译模型,一个框架支持种语言,推动中文自然语言处理社区的开放。
本次大会期间,由中国电子技术标准化研究院、上海人工智能实验室联合发起,多家机构共同编撰的全国信标委人工智能分委会的第一份技术文件《人工智能大规模预训练模型第1部分:通用要求》(TC28/SC42-)也即将发布。该文件作为我国大模型领域的一份奠基性规范文件,对推动大模型与产业深入融合、完善生态具有重要意义。
声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。邮箱
转载请注明:http://www.0431gb208.com/sjszlff/5335.html