百度大脑论坛如期而至,语音视觉语言与

来源：语言识别时间：2023/7/23

雷锋网AI科技评论消息，7月3日，一年一度的百度CreateAI开发者大会如期而至，在上午展示了百度音箱的系列更新、发布鸿鹄芯片、宣布自动驾驶方面的多项合作之后，下午的百度大脑论坛重磅开幕。

作为首位出场嘉宾，百度CTO王海峰博士表示，在上午，大家看到了百度AI技术在各行各业的应用，如小度音响、自动驾驶，这些都承载在全新升级的百度大脑5.0上，上午只是管中窥豹，不足以看到所有技术进展。这场论坛将从算力到平台再到生态，为在场观众带来百度大脑的更详细解读。

随后，百度飞桨（PaddlePaddle）、百度AutoDL、百度机器人技术、百度语音、百度地图、百度智能视觉交互、百度大数据技术等诸多团队负责人一一上场，为在场观众带来了一场全面的技术盛宴。

百度飞桨最新进展及其应用

作为百度极力推荐的深度学习平台，飞桨自然是此次论坛的重点。百度深度学习技术平台部总监马艳军详细介绍了飞桨在图像搜索、目标检测、工业质检方面的三大进展。随后，他又一次谈到飞桨的五大核心优势：全面支持动态图静态图两种计算图，官方支持模型目前已有超过70个，支持大规模分布式训练，提供非常强的端到端部署能力，提供系统化深度学习技术服务。

马艳军博士表示，官方模型覆盖三大主流任务，PaddleNLP目前已支持超过20种模型，PaddleCV支持超过50种模型，Paddlehub提供在线部署能力，支持40+预训练模型。

他随后介绍，百度产品系统目前面临了一系列挑战，诸如数据量在万亿级、训练数据量在百亿级等，在这些挑战下，他们设置了大规模参数服务器解决方案。在最新发布的飞桨核心框架PaddleFluidv1.5版本中，也更新了针对分布式训练的API。

而谈到工具的发展，与开发者息息相关的必然是开发者培训，飞桨目前有三大培养体系，黄埔学院、AI快车道、PaddleCamp。在最后，他提到百度之星，这包括百度之星编程赛（基础算法+AI对抗赛）与百度之星开发赛（基于飞桨的目标检测任务），这一赛事的报名会在本月截止，今年十月会进行全国总决赛。

百度发布行业知识图谱平台和智能创作平台2.0

百度AI技术平台体系执行总监吴甜在会上带来了百度语言与知识技术平台的最新进展。她表示，自然语言处理、知识图谱等技术都属于认知层面的技术，这些技术让机器学会如何运用人类的语言和知识，进而能够在此基础上进行思维。随后，她详细介绍了百度最近开源的ERNIE模型，该模型不仅在学术界的一些任务上表现出众，也有非常强大的应用能力，在智能问答、CTR预估、文本润色、对话理解等百度产品中表现出色。

作为此次论坛的重点，吴甜正式发布行业知识图谱和智能创作平台2.0。她表示，行业知识图谱平台是为了解决行业在智能化过程中关于知识构建和知识应用的需求。智能创作平台在本质上是对信息的重组织和再加工，通过自然语言处理、知识图谱等基础技术，将大量的原始信息进行深度语义理解、逻辑分析，形成创作当中所需的知识图谱和素材库，可以在创作的成文阶段为创作者提供组稿、顺稿、润色等能力。智能创作平台2.0具备如下三个新特性：实时热点关联丰富素材、全面的创作辅助能力、领先的多模生成技术。

大热的自动机器学习

随着自动机器学习的火热，百度恰逢其时地带来了这一技术的最新分享。

百度大数据实验室主任浣军表示，自主人工智能有三项关键技术：网络结构的自设计、学习自适应、计算环境自我适配，AutoDL1.0展示了深度学习与人类专家相媲美，AutoDL2.0展示出深度学习已经可以超过人类专家，AutoDL3.0则从设计、迁移、适配三个方面进行了全新升级。在AutoDL设计上，百度提出styleNAS（具有照片真实感的风格迁移神经网络架构搜索），可以大大简化计算量，图像质量也得到了进一步提升。

他随后提到自动化建模的一些典型应用场景，如语义分割、目标检测、图像分类等，具体应用如城市垃圾检测、把摄像机布置在水里检测鱼类从而进行生态保护。除了视觉上的一系列应用，他也提到百度自动化建模在NLP中的应用，在中文情感分类任务中，这一技术取得了与专家手工调优将近同样精度的效果，但大大节省了人工。

百度语音技术解读

随着此次开发者大会的召开，我们也看到百度在语音上取得的诸多突破。百度语音技术部高级总监高亮介绍了百度在语音方面的三大技术突破，他先是展望了百度从年至今的语音识别技术进展，随着模型的不断改进，准确率越来越高。

他重点谈到SMLTA流式多级截断注意力模型，这是国际上首次实现局部注意力建模超越整句注意力模型，也是国际上首次在线语音大规模使用的注意力模型，不管是在输入法还是在音箱上，有效产品相对准确率均能得到较大提升。

随后，他强调了MEITRON风格迁移技术，他们希望音箱在文字以外能传达更多信息，但面临三方面挑战：风格迁移、音色模拟、情感拟人，具体来说，诸如能进行音色的个性化设置，能表达除文字以外的意思，如高兴、伤心等情绪。MEITRON通过若干语句的空间建模，能输出音色、韵律、情绪三个独立的网络。他表示，该网络采用非监督训练，不需要海量数据，能进行动态分类。

关于百度鸿鹄智能语音芯片的技术细节，他也在这次论坛上进行了详细说明。该芯片适合远场语音交互场景，支持深度学习计算过程和深度模型加载的高度并行。

核心参数如下：

指令集：HiFi4自定义指令集，双核DSP储存：超大内存，包含TCM，Cache和SRAM工艺：TSMC40nmLP，功耗mW符合车规可靠性标准具备远场语音交互的边缘计算能力，包括阵列信号处理、语音唤醒、离线语音识别。视觉、机器人、智能地图等更多技术

百度视觉技术部、增强现实技术部总监吴中勤在论坛现场发布视觉语义化平台2.0，在1.0时代，我们的目标是从看清到看懂，在2.0时代，要形成智能交互、软硬件结合。

他表示，智能交互包括一体化人机交互系统（人脸、手势、肢体、环境等），可以应用于AR特效相机和智能车机、智能音箱等设备。谈到软硬结合的视觉解决方案，他提到PaddleSlim模型压缩平台、FaceID多模态人脸识别组件、软硬件一体的AI相机解决方案，也详细介绍了这些产品的诸多优势。

百度三维视觉首席科学家杨睿刚对百度机器人技术进行了分享。他表示，机器人就是一个智能体，目前，百度对智能体技术的研究主要集中在自动驾驶Apollo、工程机械和服务机器人三大方面。他谈到工程机械智能化需要赋予智能体从感知到决策再到动作的能力，随后，他详细带来了这些能力所需要的技术细节。

他表示，上午主论坛中的「茶博士」，这是一种组合的AI能力，这里包括多引擎对话理解、多候选型应答生成、位置敏感的指代消除、基于多轮对话的状态更新与动作触发。基于百度3D视觉，机器人可以进行茶杯检测和位置追踪，基于机器人运动规划和控制，机械臂可以对工作空间进行碰撞检测，避开障碍物。在实时规划运动后，机器人可以自动生成倒茶轨迹，随后，机器人能感知水流变化，实时调整倒茶位置。他表示，在未来，AI技术已经不再是孤岛，组合AI将推动工程机械和其它应用飞跃发展。

百度地图事业部总经理李莹带来了基于飞桨的百度地图通行时间智能预估，她表示，新一代人工智能地图结合了语音、AR、高精度知识图谱等各种技术，

百度地图ETA（EstimatedTimeofArrival）是地图路线规划的主要特征，也是用户出行决策的重要参考因素，这一技术可以让用户在出行时避免拥堵时段、了解拥堵时长、躲避拥堵路线，但同时也面临很多挑战和难点，如变化大、因素多、时效性高、个性化强。基于此，他们提出基于飞桨的深度神经网络到达时间预估模型，可以实现实时ETA精准预估、拥堵路段时间预估，该模型融合了多层编码、多层感知等。

最后，百度大数据部高级总监郭谢带来了百度点石大数据平台的介绍，他也对该平台的三大核心特性进行了解读，包括安全的数据融合加工环境、多层次开放的可定制组件，以及功能一体化的大数据开发平台。

关于百度大脑的更多细节，大家可以点击如下地址进一步了解。

转载请注明：http://www.0431gb208.com/sjslczl/5376.html

上一篇文章：为什么游戏代表的未来会是微软的第三曲线

下一篇文章：没有了