只有在同一维度下比较,才会发现特斯拉的“可怕”之处。
本次AIDAY上,特斯拉宣布在美国参加FSD测试版的车辆已达16万辆之众。测试版在人类驾驶员始终监控的情况下,根据导航实现从一个停车场到另一个停车场的“完全自动驾驶”功能。
这与近期包括小鹏、毫末、华为等在内的厂家提供的高速和城市领航功能相类似。
但值得注意的是,FSDBeta是基于Tops的算力实现上述功能的,而且近期特斯拉宣布在新车上取消了超声波雷达,就此在硬件层面彻底走上的纯视觉路线。
这意味着硬件成本进一步降低,数据结构进一步统一。
此前有投资人估算,FSD整体价格在美元左右,取消雷达后的成本势必进一步下降。
相比之下,目前TOPS的英伟达Orin芯片价格为美元/颗,速腾聚创M1激光雷达的价格则为美元/颗。
不算摄像头,仅双Orin和双激光雷达的成本就已超过了FSDHW3.0的整体方案价格。
他山之石可以攻玉。在大算力+重感知的技术路线之外,特斯拉为何能仅凭TOPS就能在城市场景中大范围落地纯视觉的“完全自动驾驶能力“?
10月9日,《电动汽车观察家》特邀地平线BPU算法负责人罗恒博士;均胜电子副总裁、均胜智能汽车技术研究院院长郭继舜博士,进行了一场AIDAY的解读直播,从新的神经网络、数据训练体系,和硬件数据中心入手,回答特斯拉自动驾驶技术能力到底如何,自动驾驶落地还有多远的问题。
01
自动驾驶何时实现?
“FSD到了自动驾驶的深水区。这次AIDAY展示了对一些非常长尾非常琐碎问题的解决方案。在我看来,FSD又向前迈了很大一步。“罗恒表示:高级别自动驾驶功能落地的三个量化要素分别是:自动驾驶的覆盖范围、搭载车辆的数量,以及行程中机器驾驶的比例。
罗恒表示,如果未来特斯拉在美国和加拿大范围内的FSD测试版落地车辆达到50万辆,且人们频繁使用的话,则就很接近高等级自动驾驶功能实现了。
对于国内,郭继舜表示,如搭载L2+(在高速/城市道路下,能够自动变道、超车、进出匝道等)级功能的车辆占到个人时长的10%以上;达到L4级的自动驾驶出租车能够在一二线城市内区域性的商业化运行,成为人们日常的交通工具时,则可被认为高级别智能驾驶能力接近落地。
从时间来看,罗恒认为特斯拉或在明年实现北美地区50万辆FSD测试版应用的规模;郭继舜认为或年,国内或将接近高级别智能驾驶功能量产。
“在自动驾驶的深水区,需要在安全性、稳定性、先进性和成本上找到一个均衡点,实现技术和成本收益的最大化。从这点来说,在技术实现和功能可行性上,特斯拉依然是全世界最好的自动驾驶公司。“郭继舜表示。
02
大算力是必须的吗?
除了落地车辆规模和区域上的直观数据外,特斯拉在这次AIDAY上展示了其在算力需求收敛方面的能力。
AIDAY上,特斯拉展示了一个交互对象超过20个,可能性超过种的无保护左转场景中的三个决策结果。
采用传统搜索方法,每种可能性的决策时间在10毫秒左右,最终做出决定或要50毫秒。
而特斯拉通过在规划层面引入神经网络,将决策时间从通常的1-5毫秒缩短到微秒之内。
规划领域的传统方法是迭代优化,循环求解。其存在结果不确定,单位时间内算力需求大,或车端这样的有限算力下所需计算时间长的问题。因此很难应对高度复杂且需要快速决策的城市十字路口。
但神经网络则会给出一个高度确定性的结果。通过在云端对完整模型离线训练后,将训练好的轻量化网络部署到车端,就能实现一个非常高效的规划结果。
如果将特斯拉FSDbeta和Waymo在国外的情况进行对比就会发现,FSD的决策会非常激进果断,但Waymo则要保守的多,只要能右转就不左转,宁可兜圈子来行驶。
正是因为FSD规划时的效率更高,使其能够搜索更大的空间,快速做出更加全局性的决定。
“总体而言,特斯拉是把大量的复杂迭代的计算放到离线来做,然后去训练快速的,确定性、低延迟的神经网络在线的去处理。这二者的结合,就使得它能够达到一个非常高的效率。”罗恒表示,“按特斯拉的提法就是用传统的方法,一个action大概需要1~5毫秒,对于神经网络来说,它就是固定值就是0.1毫米,提升从10倍到50倍。”
通过布置高效的轻量化神经网络来进行规划,是特斯拉能够仅用TOPS算力实现城市高级别自动驾驶能力的原因之一。
罗恒提到,特斯拉之前在讨论FSD芯片时,相比算力更加强调其FPS(帧率,单位时间内识别图像的速度)性能。而且,基于FSDbeta的版本更新信息,其还在不断新增数据集并提升性能,“说明对特斯拉来说,算力还是够的。”
事实上,在算法和算力之间求得效果、成本之间的平衡,将是各大企业实现城市内自动驾驶能力落地的核心门槛之一。
郭继舜表示:国内用大算力首先是出于对安全的保证,“我们先用大算力来保证安全,再去持续降本优化,才能保证这个系统能够大面积的使用起来。”
在此前提下,之所以目前业内L2+的自动驾驶能力算力需求不断上升,甚至有的逼近0TOPS,核心原因在于感知硬件的数量和性能不断提升,以及所需应对的场景不断增多。
“我们从高速到城市道路,最难的部分在于感知和预测,因为它需要分类的物体变多了,复杂度变高了,对模型的数量和并行化的需求也由此提升了。”
郭继舜表示,这都是算力需求越来越大的原因,但并不代表需要无限的算力。
“特斯拉之所以能在Tops算力之下实现城市领航的能力,一方面是软硬件协同更加高效,另一方面也显示出算法工程师应当更加精简集约得去高效使用算力,由此才能推动高等级智能驾驶尽快落地。”
03
激光雷达是必须的吗?
通过将神经网络应用在规划领域节省算力外,特斯拉还在感知领域引入了新的神经网络模型,来实现类似激光雷达的感知效果。
今年AIDAY上的一个亮点就是通过矢量数据来描述三维世界的占用网络。
“特斯拉希望通过占用网络,在不定义物体具体是什么的情况下,去确定物体在三维空间中的位置,以及其在以什么样的速度运动。”罗恒这样描述占用网络的作用。
从效果来看,占用网络非常类似于激光雷达,能够直接提供障碍物的三维和运动变化信息。
但值得注意的是,特斯拉的占用网络是建立在视觉信号之上的,内容非常丰富,由此可实现很高的精度。而激光雷达的点云相比视觉信号始终是稀疏和不连续的,无法精细描绘物体的边界。
占用网络对三维信息和速度变化的敏感性,也成为特斯拉彻底取消雷达的底气所在。
事实上,罗恒认为特斯拉正在用占用网络逐步替代其去年才正式对外公布的BEV架构。
“他们现在的整个架构里面还包含一个动态物体的网络,未来说动态物体的网络会不会被占用网络替代?我不确定,我感觉好像也有这个趋势。”
同样是形成最终行车所用向量空间的感知耦合网络模型架构,BEV可生产一个俯视的鸟瞰图,然后将平面划分为一些点格,在每个格点内标出高度和物体属性,到底是车道线、车辆、行人还是交通标志,由此来提供一个可行使范围。
BEV模型很好的解决了多个摄像头前融合的问题,不用在后融合阶段进行不同角度摄像头的置信投票。
目前国内的多传感器方案也采用了BEV模型在其感知模型架构当中,对激光雷达的数据进行中融合或后融合。
“深度学习中,一直是通过标注更多的数据,训练更多的模型,不断扩大神经网络的认知边界,让车辆在道路上能够识别跟踪更多的事务,对它进行分类。BEV就是这样扩大了我们的知道的边界。”郭继舜表示。
但另一方面,由于要先理解是什么,再判断是否是障碍物,导致BEV模型因为无法穷尽标注现实世界,而无法去理解所有的路面情况。
例如高速路上破碎的轮胎碎片该如何识别?
通过传统的标注方式,很难标注出所有破碎轮胎的样子,以便训练出何时的模型。
事实上,类似由于对障碍物识别不准确,或未识别的情况,是造成包括特斯拉在内多个企业发生交通事故的原因。
此外,在分辨静态还是动态物体方面,BEV还是使用静态和动态两套网络,而且现实世界中任何静态物体都有可能变成动态物体,例如被撞非的路障石墩子。出现这样的情况时,静态和动态网络的分歧又很难解决。
郭继舜表示:“占用网络解决了BEV对面的另一个问题,缩小了我们故知道自己不知道的边界。”
占用网络能够让车辆在未理解前方是什么的情况下,将其判断为是否影响交通结果的障碍物。“这在我看来是非常大的一步,占用网络一定会成为未来一年,我们在技术领域高度
转载请注明:http://www.0431gb208.com/sjsbszl/3332.html