(报告作者:安信证券分析师徐慧雄、李泽)
1.特斯拉 FSD 商业化拐点将至,智驾付费模式有望彻底跑通
特斯拉 FSD(Full Self-Driving)是在 Autopilot 的基础上,推出的高阶自动驾驶功能,是特斯拉树立“高端智能化”品牌标签的重要渠道,目前已迭代至 V11.4.6。特斯拉于2020 年 Q3 正式发布 FSD Beta(测试版)版本,随后在 2021 年 7 月特斯拉通过重构后的底层算法,采用纯视觉技术路线初步实现了城市 NOA,并针对不良天气影响、无保护左转等Corner case 进行不断的升级优化。从 2023 年 4 月发布的 FSD Beta 11.3 版本开始,特斯拉统一了城市 NOA 与高速 NOA 的系统架构。根据马斯克在推特上的多次预告,FSD V12 将是一次具有历史意义的重要更新,同时称 FSD V12 将不再是 Beta 版本。
FSD Beta 在北美测试用户已超 40 万,行驶里程加速提升,我们认为特斯拉 FSD 商业化拐点将至,智能驾驶付费模式有望彻底跑通。
(资料图)
测试用户:马斯克早在 2015 年首次官宣特斯拉将推出 FSD 完全自动驾驶,2016 年 Q3 在官网上线 FSD 选装包,彼时尚无具体功能说明。直到 2020 年 10 月 21 日,特斯拉正式发布FSD Beta 测试版本,但仅向北美 Early Access 早鸟用户推送。在 2021 年初举行的财报电话会议上,马斯克表示,截至 2021 年 1 月,已经有近 1,000 名车主在公共道路上参与FSD 测试,至 2021 年 3 月,这一数字已提升至 2000 名。在数千名早鸟用户历经一年的内测,伴随着 2021 年 7 月发布重要版本 FSD Beta V9,在 2021 年 9 月 FSD Beta 在北美开始进行有条件的公测,但仅安全评分达到 100 的车主才可获得测试资格。
两个月后,2021 年11 月 FSD Beta 测试者的数量大幅提升至 1.17 万,随后 2022 年 1 月/4 月/9 月测试人数分别达到 6 万/10 万/16 万。随着 FSD Beta 版本持续迭代、系统可靠性不断提升,特斯拉对于获得 FSD Beta 测试资格的安全评分标准不断放松,根据马斯克的推特,2022 年 9 月对安全评分的要求已放宽至 80 分。至 2022 年 11 月 24 日,特斯拉向北美地区所有购买 FSD 用户推送 FSD Beta 测试功能,标志着 FSD Beta 在北美进入全面公测,参与测试人数随之大幅提升,截至 2022 年 12 月末测试人数达到 28.5 万。根据特斯拉官方推特,截至 2023 年 3月 2 日 FSD Beta 测试人数超过 40 万,根据 Marklines 数据,截至 2023 年 2 月底,北美特斯拉保有量约为 185 万,对应渗透率达到 22%。(FSD 软件需要在 HW3.0 平台上才可以启动,特斯拉 2019Q2 之后生产的车辆才搭载 HW3.0,但特斯拉可以为老车主将硬件免费升级至3.0 平台,因此此处渗透率计算按特斯拉在北美全部的保有量计算)
行驶里程:根据特斯拉 2023 年二季度业绩说明会,截至 2023 年 6 月,FSD Beta 累计行驶 里程已超过 3 亿英里。其中,自 2023 年 4 月开始 FSD Beta 累计行程里程加速提升,仅 Q2 单季度提升约 1 亿英里,主要系 FSD 订阅量的上升及从 2023 年 4 月开始的 V11.3 在高速上启用了 FSD Beta。需要注意的是,在 2023 年 4 月之前,高速场景并未统一到 FSD Beta 技术栈中。
软件付费:特斯拉 FSD 具有“期货”属性,自 2016 年发布以来已经过多轮价格调整,2019年 4 月激活 FSD 功能仅需要一次性支付 5,000 美元,而目前 FSD 买断价格已上涨至 1.5 万美元。同时自 2021 年 5 月起,FSD 同时支持订阅的方式进行购买,基础 AP 用户订阅价格为99 美元/月,已购买加强 AP 的用户订阅 FSD 价格为 199 美元/月。
根据 TroyTeslike 调研数据,2019 年以来随着 FSD 购买价格逐步上涨及 Model 3/Y 中低端车型成为销售主力,FSD在北美的单季度渗透率有所下滑。随着 FSD Beta 功能体验逐步完善,2023 年下半年以来特斯拉通过对 FSD 进行有条件优惠等方式扩大用户基数。2023 年 7 月 7 日特斯拉升级引荐计划,如果用户通过推荐购买 Model 3/Y,可以免费试用三个月 FSD Beta;如果通过推荐购买 Model S/X,可以免费试用六个月。同时,马斯克在推特上表示当 FSD 达到足够流畅时会在北美向所有用户免费试用一个月,我们认为这或会在 FSD V12 发布后实现,届时 FSD 订阅率有望实现跃升,智能驾驶付费彻底跑通。
2.算法:BEV+Transformer 确立行业通用感知范式,端到端大模型有望再次引领行业
2.1.2018 年之前:从与 Mobileye 合作到初步尝试自研
2014-2016 年间特斯拉与 Mobileye 深度合作,由 Mobileye 提供感知算法,主要基于传统机器视觉技术,依靠大量人工手写规则。针对每一类 ADAS 任务,Mobileye 都设计了复杂的机器视觉算法,并且在工程层面进行长期的优化,结合专用芯片,最终达到效率和可靠性的平衡。以 Mobileye 的经典测距算法为例,它使用前方车辆的车轮和地面接触点作为检测点,在假定地面水平的情况下,利用镜头的焦距 f、相机离地距离 H、成像高度 y 等易于测量的数据,可以估算出车辆距离本车的距离。在这一阶段,特斯拉基于 Mobileye 方案的AP1.0 系统陆续实现了车道偏离预警、主动巡航控制、自动变道、自动泊车等功能。
2016 年-2017 年特斯拉开始逐步探索自研自动驾驶算法。2016 年特斯拉和 Mobileye 合作关系破裂后在硬件端转向英伟达,同时自研软件算法。2016 年 10 月 HW2.0 量产,而软件层尚未推出,直到 2016 年 12 月 31 日特斯拉发布 Autopilot8.0 版本,辅助驾驶功能才重新上线,但相比于 AP1.0 系统功能上出现了明显的回退,至 2017 年 3 月推送的 8.1 版本 AP2.0系统基本达到了 AP1.0 系统的功能体验。
同时,2016-2018 年间特斯拉自动驾驶团队构成也发生了多次变化,2016 年 12 月,特斯拉 Autopilot 原总监 Sterling Anderson 离职,苹果Swift 语言之父 Chris Lattner 接任,带领 AP2.0 的研发,但仅半年后 Lattner 宣布离职。在这一时期特斯拉几乎不对外披露软件算法技术进展,但值得注意的是,2016 年底开始特斯拉的 vision 小组与机器学习小组也开始在技术上为 Autopilot 的开发提供支持,说明特斯拉已经开始尝试将 AI 引入自动驾驶的应用中。
2.2.2018 年之后:从后融合到特征级融合,大模型赋能下引领行业
2017 年 6 月 Andrej 加入特斯拉后,主导特斯拉自动驾驶算法从基于传统视觉(规则的方式)向神经网络模型、数据驱动的方向发展。Andrej 将传统视觉称之为 Software1.0,指实现某一个功能依靠既定代码逻辑,可以理解为给定目标,程序员设定好一条固定达到目标的路径。以数据驱动、依靠神经网络的模型被称为 Software2.0,给定目标结果,程序员设定网络框架,通过计算资源搜索程序空间的子集(给定目标值,利用反向传播和梯度下降实现),进而找到这条具体的、最高效的路径。特斯拉自动驾驶算法进化过程是 2.0 软件逐步“吞噬”1.0 软件的过程,从一开始规则主导,部分神经网络辅助;到二者交叉,部分模块神经网络、部分规则,再到神经网络完全主导,用“one model”统一全栈。
2.2.1.2018-2019:使用多任务网络提高模型效率,在 BEV 空间下进行后融合
构建 Hytranets 多任务网络提高自动驾驶感知模型效率。在 2018-2019 年期间,行业中应用神经网络完成自动驾驶感知任务的方式是针对单个任务进行网络设计,即一个神经网络结构只对应一个感知任务的实现。自动驾驶中同时存在非常多感知任务(尤其从高速进入城市场景,环境复杂度大幅提升),如果为每一个任务单独设计一个神经网络极其耗费资源。
特斯拉的解决方案是设计一个 Hydranets 多任务网络,有一个共享的 backbone 骨干网络,再输出多个任务。这样设计最核心的好处在于节约计算资源,一方面在训练端,针对单个任务进行微调时不需要对共享网络进行重新训练;另一方面在车端进行推理时不同任务共享特征提取结果从而避免重复计算。
在泊车场景下开始应用 BEV,采用后融合策略对不同视角进行拼接。2019 年 10 月,特斯拉 推出停车场智能召唤功能,可控制车辆离开车位、绕过弯角、进行必要的避障到达所选位 置。为实现这一功能,车辆需要找到停车场中的可行驶区域,避免碰到道路边缘。特斯拉 在不同视角之下完成了车道线边缘的预测,但车辆无法在 2D 透视图中完成后续的规划决策, 因此需要将 8 个不同视角下的预测结果“投射”到 BEV 视角下(此时尚未正式提出 BEV 的 概念,称其为 Top-down 自上而下的视角)进行拼接,需要特别注意的是,这个拼接过程是 用基于数学规则的方式而非神经网络的方式完成的。
2.2.2.2020-2021:特征级融合取代后融合,BEV+Transformer 架构下,进入自动驾驶大模型时代
特斯拉利用基于神经网络的特征级融合取代基于规则的后融合,大幅提升感知效果。2020年特斯拉开始研发 FSD 完全自动驾驶,当自动驾驶从简单的泊车场景向普通城市道路拓展时,后融合的感知结果难以满足要求。一方面基于规则的后融合具有严苛的假设,如地面是完美水平、相机和地面之间不存在相对运动,因此任何的车辆颠簸或者道路有高度变化都会打破这一假设,使得 BEV 输出的图像面临失真。
同时,由于透视投影,在 2D 图像中完成不错的感知结果投影到 BEV 空间中精度很差,若要保证远距离区域的精度,就必须要对每一个像素的深度预测非常准确,而这是难以实现的。为解决这些问题,特斯拉希望能直接利用神经网络输出 BEV 感知结果,自动驾驶感知融合从后融合走向特征级融合。具体模型框架如下:1)通过 Backbone 共享骨干网络进行特征提取;2)将不同视角下的 2D 特征图通过神经网络转换至 BEV 空间内融合;3)融入时序信息;4)多任务的输出。
Transformer 交叉注意力机制对于 BEV 空间转换任务适配性较高。利用 Transformer 进行 BEV 空间转换的方法没并有显示的深度估计,而是用注意力机制直接进行不同序列(指 2D 特征图和 BEV 视图)之间的转换。Transformer 的交叉注意力机制中的 Query 和 Key/Value 来源不同,因此天然适配于不同域之间的数据转换。在 2D 特征图向 BEV 空间转换的过程中, 首先将 BEV 空间分割成 2D 格栅,之后将它们编码成一组 Query 向量,去不同视角的 2D 特 征图中查询对应的点,从而实现空间的转换。根据 2021 年特斯拉 AI Day,通过 Transformer 交叉注意力机制在 BEV 空间内做特征级融合的效果远好于基于规则的方法在 BEV 空间内后融合。
2.2.3.2022:升级至 Occupancy 解决一般障碍物识别问题,Lanes Network 进一步完善地图模型
从 BEV 升级到占用网络,进一步提升泛化能力。特斯拉在 2022 年 AI Day 中展现了Occupancy Network 感知技术。基本的思想是将三维空间划分成体素 voxel(可以理解为微小立方体),再去预测每个 voxel 是被占用还是空闲,通过 0/1 赋值对 voxel 进行二分类:有物体的 voxel 赋值为 1,表示 voxel 被物体占据;没有物体的 voxel 被赋值为 0。实际中的赋值可以是概率值,表示 voxel 存在物体的概率。
占用网络感知技术本质上是为了解决更多的长尾问题。纯视觉方案被质疑的一大问题在于 对于没有在训练集中出现过的物体,视觉系统则无法识别,比如侧翻的白色大卡车,垃圾 桶出现的路中,传统视觉算法无法检测到。占用网络模型的基本思想是“不考虑这个物体 到底是什么,只考虑体素是否被占用”,则从根本上避免了这一问题,大幅提升了模型的泛 化能力。
Occupancy 网络结构与特斯拉 2021 年 AI Day 展示的 BEV 网络结构差异不大,均包括特征 提取、利用神经网络进行特征级融合、融入时序信息、多任务的输出四个步骤,事实上 Occupancy 可以看作是 4D 的 BEV。从网络结构上看差异主要体现在:1)Occupancy 模型中 进行空间转换时的 Query 是 3D 格栅,BEV 模型中是 2D;2)Occupancy 模型可以直接解码出 网格的占用情况、速度信息、3 维道路曲面参数和语义信息等。
从 BEV 在线地图升级至矢量地图构建模型 Lanes Network,更有利于下游的规划决策。特斯 拉始终坚持无高精度地图的方案,通过车端实时感知+导航地图为下游规划决策提供所需的 道路信息,因此特斯拉在线地图的升级方向就是让其提供的信息密度越来越接近高精度地 图。高精度地图相比于导航地图定位精度明显提升,并且可以提供车道级的信息(车道线 的数量、边缘位置),这一点特斯拉在 2021 年通过在 BEV 空间内对车道线进行完整的在线 分割和识别已经实现。但除此之外,高精度地图还可以提供道路拓扑结构,即车道线之间 的连接关系,特斯拉将地图模型升级至矢量地图就是为了补足这一信息。
特斯拉矢量地图 Lanes Network 包含视觉、地图、语义三个模块,利用 Transformer 生成 车道线的关键节点。从网络架构上来说,矢量地图是 Occupancy 感知网络的一个 decoder, 将来自感知网络的视觉特征信息、地图的信息整合起来给到语义模块,这里需要特别注意 的是特斯拉所采用的地图是其自己绘制的众包地图,而非高精度地图。语义模型框架上类 似 Transformer 中的 Decoder,将来自视觉模块和地图模块的所有信息进行编码,类似于语 言模型中单词 token,再以序列自回归的方式预测节点的位置、属性以及连接关系。
2.2.4.2023:规划决策端应用神经网络,实现“端到端”的自动驾驶模型
特斯拉 FSD V12 在规划决策端采用 AI 大模型,更好的处理复杂的交通参与者之间的交互问题,有望实现端到端自动驾驶。在当前自动驾驶模型架构中将驾驶目标划分为感知、决策、执行三个大的模块。目前行业在特斯拉的引领下感知模块均依靠于神经网络实现,但规划决策端依然是基于传统规则,而非神经网络的方式。马斯克在推特上称,特斯拉 FSD V12将采用“端到端”模型,输入数据是摄像头采集的到的视频流 raw-data,输出数据直接是如方向盘转角多少度的控制决策。可以理解为,除了感知模块,特斯拉在规划决策模块也将采用 AI 大模型、数据驱动的方式来实现。
规划决策端应用神经网络模型是当前学界、业界共同关注的发展方向。获得 2023 年 CVPR 最佳论文奖的《Planning-oriented Autonomous Driving》提出 UniAD 自动驾驶大模型, UniAD 以“规划”为目标,利用多组 query 实现了全栈 Transformer 的端到端模型。需要注意的是 UniAD 利用 Transformer 统一了自动驾驶感知、规划决策全栈,但模块之间有明显的区隔,并非完全黑盒,具有一定的可解释性。
3.数据:数据闭环+超算中心造就 FSD 极致迭代速度
如前所述,特斯拉自动驾驶模型从大量的程序员手写规则的 Software1.0 向基于神经网络的 Software2.0 迭代,在 Software2.0 时代下,数据是最为重要的生产资料。我们复盘特斯拉对数据闭环体系的构建可以分为以下两个阶段:1)2016-2019 年:首创影子模式,组建千人标注团队,数据闭环体系初步构建;2)2020 年-至今:逐步发展至 4D 自动标注,数据闭环体系趋于完善,Dojo 超算中心投产进一步提升迭代速度。
3.1.2016-2019:首创影子模式,数据闭环体系初步构建
特斯拉早在 2016 年首创影子模式,开始在车端大量收集众包数据,2018 年已初步构建了数据闭环体系。一次完整的数据闭环过程分为以下几个步骤:1)从一个初始数据集开始(seed dataset)训练神经网络并部署在车端。2)设计 trigger 触发机制,回传车端收集到的 corner case(如神经网络结果不准确、司机接入接管等)。3)发现这个 corner case后,写成一个新的 trigger 发送到车端,让车队回传大量的类似数据集。4)对新得到的数据集进行标注,重新训练。在这一过程中,corner case 的挖掘速度(取决于众包车队的数量以及 Trigger 触发机制的设计)、对类似场景数据的收集速度、数据标注的速度和质量、训练模型的计算资源共同决定了自动驾驶模型的迭代能力。
特斯拉开创影子模式通过大量众包车辆收集 corner case:在有人驾驶状态下,系统包括传感器仍然运行但并不参与车辆控制,只是对决策算法进行验证——系统的算法在“影子模式”下做持续模拟决策,并且把决策与驾驶员的行为进行对比,一旦两者不一致,该场景便被判定为“极端工况”,进而触发数据回传。同时在 2019 年特斯拉已经开始搭建仿真平台,但根据 Tesla Autonomy Day,彼时特斯拉仿真场景存在雨雾等复杂现实环境难以复原等问题,在自动驾驶模型训练中参与度较低。
组建超过千人的数据标注团队,保证标注质量。神经网络的训练过程需要给定目标结果 (即真值),因此对于收集的数据需要进行标注后才可以用于模型的训练。在 2016-2019 年 这个阶段,特斯拉数据标注主要依赖于人工手动标注。特斯拉最早将数据标注外包给第三 方团队,但由于外部团队难以及时响应且数据标注质量较低,特斯拉逐步在内部组建了近 千人的数据标注团队。同时,在这一阶段训练数据的真值标注是基于 2D 图像的,即在 2D 图像上标注出各种物体(车辆、行人、交通标志等)的位置和类别,形式通常是边界框 (Bounding Boxes)。
采购英伟达 GPU 自建数据中心,规模尚小,模型单次训练所需时间较长。在特斯拉启动 Dojo 超算中心项目之前,通过采购英伟达 GPU 已初步构建数据中心。根据特斯拉 AI Day 展 示资料,2019 年 8 月特斯拉所拥有的 GPU 数量仅约 1500 个,到 2020 年 2 月达到约 1700 个。 同时,Andrej 2020 年 2 月在 Scaled ML 会议中的演讲中表示,特斯拉当时自动驾驶模型训 练一次需要约 70000 个 GPU 时,因此可以推算在 2019 年末-2020 年初时,特斯拉自动驾驶 模型一次训练需要 2 天。
3.2.2020-2023:逐步升级至 4D 标注,数据闭环体系趋于完善
在初代数据引擎的基础之上,特斯拉升级版数据引擎在标注方案、模拟仿真、云端计算资源三个方面大幅升级,数据闭环系统趋于完善。特斯拉在 2022 年 AI Day 上所展示的数据引擎依然按照模型部署->车端影子模式下发现 corner case 回传至云端->获得大量相似场景->数据标注后重新训练->再次部署到车端的流程进行,但相比于 2019 年的初代数据引擎 版本,主要在标注方案、模拟仿真、云端计算资源三个方面进行了升级。
3.2.1.从 2D 人工标注升级至 4D 自动标注,提升标注效率
从基于图像空间的 2D 标注升级至 BEV 空间下的 4D 标注,大幅提升标注效率。如前所述,对采集的原始数据进行标注来作为神经网络模型的目标结果进行训练。因此训练传统的基于单个摄像头的感知模型,所需要标注的真值仅在 2D 图像空间中完成即可。而随着感知模型向 BEV 模型迭代,其所需要的真值需要在 BEV 空间内完成标注。
特斯拉采用的方法是基于多趟场景重建技术的 4D 自动标注,具体步骤如下:1)对单个 Clip(Clip 是 Tesla 标注系统的最小标注单位,一个 Clip 通常包含时长为 45 秒到 1min 的路段内所有传感器的数据)使用一个神经网络隐式地对路面建模,得到重建结果;2)将包含相同路段所有的 Clip 进行拼接对齐,完成多趟重建;3)当有新的旅程发生时,就可以进行、几何匹配,得到新旅程车道线的伪真值(pseudolabel)。特斯拉自动标注系统可以取代 500 万小时的人工作业量,人工仅需要检查补漏。特别需要指出的是,离线自动标注系统同样是大模型,车载感知模型相当于对离线大模型进行蒸馏。
3.2.1.虚拟仿真技术逐步成熟,赋能模型迭代
加入仿真场景,对所采集的 corner case 进行泛化,提高模型迭代速度。如前所述,在特斯拉初代数据引擎中,在影子模式之下回传 corner case 后,需要再写一个 trigger 发送到车端让众包车队回传类似场景进行训练。但随着模型不断迭代,corner case 出现的概率逐步降低,某些极端场景往往可遇不可求,等待车队回传真实数据耗时较长,在这种情况下,仿真场景是有效的解决方案。
特斯拉 Simulation World Creator 具体流程如下:1)由经自动标注的真实场景数据中提取隔离带边界、车道线、道路连接信息等来生成路面网格并进行车道线等渲染;2)植物通过丰富的素材库在路间和路旁随机生成植物房屋等来模拟真实世界中这些物体引起的遮挡效应;3)由导航地图提供信号灯、路牌等其他道路元素;4)加入车辆和行人等动态元素。在这一过程中,通过道路街景随机生成以及车道链接关系的随机生成提高了模型的泛化能力。
3.2.1.云端计算资源不断扩充,Dojo 超算中心正式投产
Dojo 超算中心正式投产,FSD 迭代速度有望进一步大幅提升。根据 Tesla 2021 年 AI Day,自 2019 年以来,特斯拉基于英伟达 GPU 部署的数据中心算力持续提升。2019 年 8 月,特斯拉仅拥有不到 1500 个 GPU,而到了 2021 年 8 月,特斯拉用于云端部署的超级计算机已经拥有 11544 个 GPU。此时,特斯拉具有三个计算集群,其中最大的计算集群具有 5760 个英伟达 A100 GPU(80GB 显存容量),合计 1.8 EFlops 的 AI 算力。而最小的计算集群具有1752 个 GPU 用于自动标注系统。
与此同时,特斯拉自 2019 年开始筹备 Dojo 超算中心项目,在 2021 年 AI Day 上正式发布。马斯克表示一方面由于英伟达产能有限,另一方面由于英伟达是通用 GPU,并非针对视频训练的专用芯片,因此特斯拉自研训练芯片可以提高训练效率。
根据特斯拉在 AI Day 2022 上公布的数据,与英伟达的 A100 相比,每一颗 D1 芯片(配合特斯拉自研的编译器)在自动标注任务中最高能够实现 3.2 倍的计算性能,而在占用网络任务中最高能够实现 4.4 倍的计算性能。根据 Tesla_AI 的官方推特,Dojo 超算中心已于 2023 年 7 月正式投产,预计 2024 年 2 月达到等效于 10 万个英伟达 A100 的算力,成为全球前五大计算中心。目前 FSD Beta 的发版速度为平均 20 天一次,我们预计随着Dojo 超算中心的投产,特斯拉 FSD 的迭代速度会进一步提升。
4.硬件:算力、内存大幅提升赋能自动驾驶算法向大模型迭代
4.1.HW4.0 版本发布,芯片性能、传感器配置全面升级
特斯拉自动驾驶硬件自 2014 年逐步从 HW1.0 迭代至 HW4.0,历经核心芯片外采到自研的转变,目前 HW4.0 已开始量产。复盘特斯拉 HW1.0 到 HW4.0 硬件系统配置变化:
Hardware1.0:2014 年 9 月特斯拉推出第一代自动驾驶硬件平台 HW1.0,主芯片采用Mobileye 的 EyeQ3,同时搭配 Nvidia Tegra3,传感器为 1 颗摄像头+1 颗毫米波雷达+12 颗超声波雷达。特斯拉自始坚持视觉为主的方案,反对使用激光雷达这样的高成本传感器,与同样采用视觉方案的 Mobileye 不谋而合。然而,由于特斯拉和 Mobileye 在数据归属、合作开发模式等方面存在分歧,同时 2016 年 5 月发生的 Autopilot 交通事故成为二者分手的导火索。
Hardware2.0:与 Mobileye 分手后,2016 年 10 月特斯拉基于 Nvidia drive PX2(该平台由 1 颗 Tegra Parker 芯片和 1 颗 Pascal 架构 GPU 芯片构成)推出 HW2.0,算力提升至12Tops(Mobileye EyeQ3 算力仅 0.256Tops)。传感器方案升级至 8 个摄像头+1 颗前向毫米波雷达+12 颗超声波雷达,这一套传感器配置一直保留至 HW3.0。2017 年 7 月,特斯拉将HW2.0 升级至 HW2.5,增加了一颗 Tegra Parker 芯片。
Hardware3.0:特斯拉在与英伟达合作的同时,于 2016 年 2 月开始组建团队自研自动驾驶芯片,历时三年的研发,特斯拉于 2019 年 4 月推出基于 Tesla FSD Computer 的 HW3.0。HW3.0 采用双冗余设计,搭载两块 FSD1.0 芯片,每一块芯片可以独立运算。FSD 芯片采用CPU+GPU+ASIC 路线:1)CPU:Cortex-A72 架构,共有 12 核,最高运行频率 2.2GHz;2)GPU:最高工作频率为 1 GHz,最高计算能力为 0.6TFLOPS;3)NPU:2 个 Neural Processing Unit(NPU),每个 NPU 可以执行 8 位整数计算,运行频率为 2GHz,单个NPU 算力 36.86 TOPS,2 个 FSD 芯片的总算力为 144TOPS。
Hardware4.0: 2023 年 HW4.0 已搭载于 Model S/X,相较于 HW3.0 在传感器配置、SoC 性能、内存带宽等方面均有大幅提升。
1)传感器配置:相较于 HW3.0,HW4.0 所搭载的摄像头数量和精度均有所提升。HW4.0 共有 12 个摄像头接口,其中包括 1 个备用、1 个舱内摄像头,实际 10 个摄像头用于自动驾驶感知(其中两个前视),摄像头像素或从 120 万提升至 540万。此外,HW4.0 预留了 4D 毫米波雷达的接口。
2)SoC 性能提升:FSD2.0 芯片 CPU 内核由12 个增加到 20,最大运行频率由 2.2GHz 提高到 2.35GHz。NPU 核从 2 个增加到 3 个(最大运行频率由 2GHz 提高到 2.2GHz),预计域控制器总算力约 400-500Tops.
3) 内存方案升级:从 HW3.0 的 8 颗 LPDDR4 升级至 16 颗 GDDR6,内存容量从 16GB 提升至 32GB,最大内存带宽从 68GB/s 大幅提升至 224GB/s。
4.2.Transformer 大模型要求自动驾驶芯片具有更强的计算能力
Transformer+BEV 自动驾驶大模型的应用推动车端算力需求提升。车端算力用于量产车上自动驾驶模型推理的过程,可以理解为将训练好的自动驾驶模型部署在车端,自动驾驶汽车实时采集的图像输入到训练好的模型中,依据模型参数算出结果的过程。自动驾驶算法向大模型迭代,参数量大幅提升;同时,随着摄像头精度提升、多传感器融合方案从后融合走向特征级融合,数据量大幅提升,以上因素共同作用使得对车端算力需求提升。根据罗兰贝格的预测,L3 对算力的需求是 L2 的 10 倍。
相比于 CNN,Transformer 模型对芯片浮点计算能力提出更高的要求。传统 AI 芯片主要针对 CNN 模型设计,常使用 INT8 量化操作(将网络中的参数和计算从高精度转换到低精度)以此来减少存储和计算的开销。
CNN 模型中的主要操作是卷积运算和激活函数,对精度的要求较低。在卷积运算中使用一个小的卷积核在输入图像上滑动并进行元素相乘后相加的运算,如果将输入和卷积核都量化到较低的精度(例如 INT8),在整体的卷积运算中,误差会相互抵消,对最后的结果影响并不大。激活函数通常为分段线性函数,对输入的数值精度同样不敏感。
而 Transformer 模型需要在较高的精度(如 FP16)下进行,要求硬件有高性能的浮点运算能力。在 Transformer 的核心 Attention 运算中,模型会计算输入序列中每对元素之间的相似度(矩阵乘法),之后通过一个 Softmax 函数转换为权重。这个过程中,点积运算可能会产生非常大或非常小的数值,而 Softmax 函数对这些数值极为敏感,低精度的数值表示可能会导致大量的精度损失。同时,相比于 CNN 只关注局部信息,Transformer 进行全局的信息交换,低精度的数据可能导致误差的累积。除此之外,Transformer 模型的归一化操作中需要计算每个隐藏层的均值和方差,同样需要精确的数值表示。
4.3.Transformer 大模型驱动自动驾驶芯片内存方案升级
存储芯片种类较多,主要分为易失性存储器(Volatile Memory)和非易失性存储器(Nonvolatile Memory)两大类。根据断电后数据是否丢失,存储芯片可以分为易失型存储和非易失型存储两大类。其中易失性存储器断电后数据丢失,但使用寿命较长且读写速度较快,通常作为 CPU、GPU 等算力芯片的内存,主要包括 SRAM、DRAM 等。虽然 SRAM 带宽较高、存取速度较快,但 SRAM 价格较高,不适合大规模用于车载领域。 DRAM 则分为DDR、图形 DDR(GDDR)和低功耗移动 DDR(LPDDR)三大类,其中 LPDDR 适合用于对面积和功耗较为敏感的移动和汽车应用。
自动驾驶感知模型从 CNN 小模型向 Transformer 大模型迭代过程中,对内存的消耗大幅提升。自动驾驶算法模型对 DRAM 的需求主要来自于三个方面:1)传感器传输的数据,随着摄像头精度的提高,增加内存的需求;2)模型参数(权重矩阵),每一次模型的运算都需要从 DRAM 中加载权重矩阵,模型参数越大,对内存要求越大;3)储存模型计算的中间结果。相比于 CNN,Transformer 模型在以上三个方面均对内存的需求更高。
传感器:单个摄像头的带宽需求=像素数×帧率×颜色深度(每个像素需要多少位来表示),在假设帧率和颜色深度不变的情况下,单个摄像头从 200 万像素升级到 800 万像素,对带宽的要求提升 4 倍。
模型参数:对于深度学习模型来说大部分的空间由参数占据,在车端模型推理过程中的每一次前向传播都需要将模型参数从内存中加载到计算单元中,随着模型参数量的增加,对内存的需求大幅增加。根据佐思汽研数据,传统的目标检测模型尺寸大小通常只有 20MB,而应用于自动驾驶中的 Transformer 模型参数至少在 11 亿以上,即 1.1GB 的权重模型。
储存中间结果:在 Transformer 的自注意力机制中,输入序列的每个元素都需要与其他所有元素进行比较以计算注意力权重。这实际上是在生成一个注意力矩阵,其中第 i 行和第 j 列的元素表示第 i 个元素对第 j 个元素的注意力权重。因此,对于一个含有 n 个元素的输入序列,需要生成一个 n×n 的矩阵来保存这些权重。这意味着这对针对中间结果的存储空间的需求增长与输入序列的平方成正比。而对于 CNN 模型,其卷积操作一般只涉及到输入数据的局部区域,所需存储空间相对较小。
内存的访问速度成为限制芯片有效算力的瓶颈。由于存储器和处理器的工艺不同,二者的性能差距越来越大。存储器受益于制程技术的进步,每 18-24 个月,集成电路上可容纳的晶体管数量就会翻倍;然而,内存的速度提升则主要依赖于电荷存储和访问技术,其进步速度要慢得多。梳理过去 20 年芯片算力及内存参数发现,硬件的峰值计算能力增加了 90,000倍,但是内存/硬件互连带宽却只是提高了 30 倍。
除此之外,根据 UC Berkeley RISELab 数据,大型 Transformer 模型中的参数数量呈指数级增长,每两年增长 240 倍,而单个 GPU 内存仅以每 2 年 2 倍的速度增长。存储器的性能跟不上处理器,导致处理器等待数据的时间远长于运算所消耗的时间,即产生“内存墙”问题。随着自动驾驶感知算法从 CNN 小模型向Transformer 大模型迭代,参数量大幅提升,内存墙问题愈加明显,成为限制系统性能的瓶颈。
为解决内存墙问题,自动驾驶领域所采用的内存类型从 LPDDR4/LPDDR5 向 GDDR6 发展。
如前所述,LPDDR 凭借低功耗优势成为自动驾驶领域的主流内存方案。如特斯拉 HW3.0 中搭载 8 颗镁光的 LPDDR4 芯片(单 SoC 配 4 颗),单颗内存容量为 2GB、域控平台总内存容量为 16GB。同时,若按照 LPDDR4 最高频率 4266MHZ 的速率计算,每颗 32 位的位宽,则单 SoC 总传输带宽=4266MHZ(频率)*32(位宽)*4(单 SoC 有四颗 LPDDR4)÷8 = 68.25G/S。
随着自动驾驶从 CNN 小模型向 Transformer 大模型迭代,驱动自动驾驶芯片采用更高性能的内存方案,特斯拉 HW4.0 首次将 GDDR6 应用在车载中。GDDR6 是一种用于图形处理器(GPU)和其他高性能计算应用的高带宽内存技术,满足高吞吐量内存的需求。特斯拉HW4.0 搭载了 16 颗 GDDR6(单 SoC 配备 8 颗),域控平台总内存容量升级至 32GB、单SoC 对应的理论最大带宽提升至 224GB/s。根据佐思汽车数据,特斯拉 HW4.0 搭载的 16 颗GDDR6 芯片,总成本约 160 美元;而 HW3.0 搭载 8 颗 LPDDR4 芯片,总成本仅约 28 美元。
以上内容仅供学习交流,不构成投资建议。详情参阅原报告。
精选报告来源:文库-远瞻智库
关键词: