为什么特斯拉不用大算力

来源：语言识别时间：2023/2/13

只有在同一维度下比较，才会发现特斯拉的“可怕”之处。

本次AIDAY上，特斯拉宣布在美国参加FSD测试版的车辆已达16万辆之众。测试版在人类驾驶员始终监控的情况下，根据导航实现从一个停车场到另一个停车场的“完全自动驾驶”功能。

这与近期包括小鹏、毫末、华为等在内的厂家提供的高速和城市领航功能相类似。

但值得注意的是，FSDBeta是基于Tops的算力实现上述功能的，而且近期特斯拉宣布在新车上取消了超声波雷达，就此在硬件层面彻底走上的纯视觉路线。

这意味着硬件成本进一步降低，数据结构进一步统一。

此前有投资人估算，FSD整体价格在美元左右，取消雷达后的成本势必进一步下降。

相比之下，目前TOPS的英伟达Orin芯片价格为美元/颗，速腾聚创M1激光雷达的价格则为美元/颗。

不算摄像头，仅双Orin和双激光雷达的成本就已超过了FSDHW3.0的整体方案价格。

他山之石可以攻玉。在大算力+重感知的技术路线之外，特斯拉为何能仅凭TOPS就能在城市场景中大范围落地纯视觉的“完全自动驾驶能力“？

10月9日，《电动汽车观察家》特邀地平线BPU算法负责人罗恒博士；均胜电子副总裁、均胜智能汽车技术研究院院长郭继舜博士，进行了一场AIDAY的解读直播，从新的神经网络、数据训练体系，和硬件数据中心入手，回答特斯拉自动驾驶技术能力到底如何，自动驾驶落地还有多远的问题。

自动驾驶何时实现？

“FSD到了自动驾驶的深水区。这次AIDAY展示了对一些非常长尾非常琐碎问题的解决方案。在我看来，FSD又向前迈了很大一步。“罗恒表示：高级别自动驾驶功能落地的三个量化要素分别是：自动驾驶的覆盖范围、搭载车辆的数量，以及行程中机器驾驶的比例。

罗恒表示，如果未来特斯拉在美国和加拿大范围内的FSD测试版落地车辆达到50万辆，且人们频繁使用的话，则就很接近高等级自动驾驶功能实现了。

对于国内，郭继舜表示，如搭载L2+（在高速/城市道路下，能够自动变道、超车、进出匝道等）级功能的车辆占到个人时长的10%以上；达到L4级的自动驾驶出租车能够在一二线城市内区域性的商业化运行，成为人们日常的交通工具时，则可被认为高级别智能驾驶能力接近落地。

从时间来看，罗恒认为特斯拉或在明年实现北美地区50万辆FSD测试版应用的规模；郭继舜认为或年，国内或将接近高级别智能驾驶功能量产。

“在自动驾驶的深水区，需要在安全性、稳定性、先进性和成本上找到一个均衡点，实现技术和成本收益的最大化。从这点来说，在技术实现和功能可行性上，特斯拉依然是全世界最好的自动驾驶公司。“郭继舜表示。

大算力是必须的吗？

除了落地车辆规模和区域上的直观数据外，特斯拉在这次AIDAY上展示了其在算力需求收敛方面的能力。

AIDAY上，特斯拉展示了一个交互对象超过20个，可能性超过种的无保护左转场景中的三个决策结果。

采用传统搜索方法，每种可能性的决策时间在10毫秒左右，最终做出决定或要50毫秒。

而特斯拉通过在规划层面引入神经网络，将决策时间从通常的1-5毫秒缩短到微秒之内。

规划领域的传统方法是迭代优化，循环求解。其存在结果不确定，单位时间内算力需求大，或车端这样的有限算力下所需计算时间长的问题。因此很难应对高度复杂且需要快速决策的城市十字路口。

但神经网络则会给出一个高度确定性的结果。通过在云端对完整模型离线训练后，将训练好的轻量化网络部署到车端，就能实现一个非常高效的规划结果。

如果将特斯拉FSDbeta和Waymo在国外的情况进行对比就会发现，FSD的决策会非常激进果断，但Waymo则要保守的多，只要能右转就不左转，宁可兜圈子来行驶。

正是因为FSD规划时的效率更高，使其能够搜索更大的空间，快速做出更加全局性的决定。

“总体而言，特斯拉是把大量的复杂迭代的计算放到离线来做，然后去训练快速的，确定性、低延迟的神经网络在线的去处理。这二者的结合，就使得它能够达到一个非常高的效率。”罗恒表示，“按特斯拉的提法就是用传统的方法，一个action大概需要1~5毫秒，对于神经网络来说，它就是固定值就是0.1毫米，提升从10倍到50倍。”

通过布置高效的轻量化神经网络来进行规划，是特斯拉能够仅用TOPS算力实现城市高级别自动驾驶能力的原因之一。

罗恒提到，特斯拉之前在讨论FSD芯片时，相比算力更加强调其FPS（帧率，单位时间内识别图像的速度）性能。而且，基于FSDbeta的版本更新信息，其还在不断新增数据集并提升性能，“说明对特斯拉来说，算力还是够的。”

事实上，在算法和算力之间求得效果、成本之间的平衡，将是各大企业实现城市内自动驾驶能力落地的核心门槛之一。

郭继舜表示：国内用大算力首先是出于对安全的保证，“我们先用大算力来保证安全，再去持续降本优化，才能保证这个系统能够大面积的使用起来。”

在此前提下，之所以目前业内L2+的自动驾驶能力算力需求不断上升，甚至有的逼近0TOPS，核心原因在于感知硬件的数量和性能不断提升，以及所需应对的场景不断增多。

“我们从高速到城市道路，最难的部分在于感知和预测，因为它需要分类的物体变多了，复杂度变高了，对模型的数量和并行化的需求也由此提升了。”

郭继舜表示，这都是算力需求越来越大的原因，但并不代表需要无限的算力。

“特斯拉之所以能在Tops算力之下实现城市领航的能力，一方面是软硬件协同更加高效，另一方面也显示出算法工程师应当更加精简集约得去高效使用算力，由此才能推动高等级智能驾驶尽快落地。”

激光雷达是必须的吗？

通过将神经网络应用在规划领域节省算力外，特斯拉还在感知领域引入了新的神经网络模型，来实现类似激光雷达的感知效果。

今年AIDAY上的一个亮点就是通过矢量数据来描述三维世界的占用网络。

“特斯拉希望通过占用网络，在不定义物体具体是什么的情况下，去确定物体在三维空间中的位置，以及其在以什么样的速度运动。”罗恒这样描述占用网络的作用。

从效果来看，占用网络非常类似于激光雷达，能够直接提供障碍物的三维和运动变化信息。

但值得注意的是，特斯拉的占用网络是建立在视觉信号之上的，内容非常丰富，由此可实现很高的精度。而激光雷达的点云相比视觉信号始终是稀疏和不连续的，无法精细描绘物体的边界。

占用网络对三维信息和速度变化的敏感性，也成为特斯拉彻底取消雷达的底气所在。

事实上，罗恒认为特斯拉正在用占用网络逐步替代其去年才正式对外公布的BEV架构。

“他们现在的整个架构里面还包含一个动态物体的网络，未来说动态物体的网络会不会被占用网络替代？我不确定，我感觉好像也有这个趋势。”

同样是形成最终行车所用向量空间的感知耦合网络模型架构，BEV可生产一个俯视的鸟瞰图，然后将平面划分为一些点格，在每个格点内标出高度和物体属性，到底是车道线、车辆、行人还是交通标志，由此来提供一个可行使范围。

BEV模型很好的解决了多个摄像头前融合的问题，不用在后融合阶段进行不同角度摄像头的置信投票。

目前国内的多传感器方案也采用了BEV模型在其感知模型架构当中，对激光雷达的数据进行中融合或后融合。

“深度学习中，一直是通过标注更多的数据，训练更多的模型，不断扩大神经网络的认知边界，让车辆在道路上能够识别跟踪更多的事务，对它进行分类。BEV就是这样扩大了我们的知道的边界。”郭继舜表示。

但另一方面，由于要先理解是什么，再判断是否是障碍物，导致BEV模型因为无法穷尽标注现实世界，而无法去理解所有的路面情况。

例如高速路上破碎的轮胎碎片该如何识别？

通过传统的标注方式，很难标注出所有破碎轮胎的样子，以便训练出何时的模型。

事实上，类似由于对障碍物识别不准确，或未识别的情况，是造成包括特斯拉在内多个企业发生交通事故的原因。

此外，在分辨静态还是动态物体方面，BEV还是使用静态和动态两套网络，而且现实世界中任何静态物体都有可能变成动态物体，例如被撞非的路障石墩子。出现这样的情况时，静态和动态网络的分歧又很难解决。

郭继舜表示：“占用网络解决了BEV对面的另一个问题，缩小了我们故知道自己不知道的边界。”

占用网络能够让车辆在未理解前方是什么的情况下，将其判断为是否影响交通结果的障碍物。“这在我看来是非常大的一步，占用网络一定会成为未来一年，我们在技术领域高度

转载请注明：http://www.0431gb208.com/sjsbszl/3332.html

上一篇文章： 2022届全国高三第二次学业质量联合检测

下一篇文章：通俗易懂图卷积神经网络入门详解