BEV感知与智驾方案-上｜盖世大学堂舱驾、行泊一体系列知识讲解

发布时间：2025-02-17 14:36:54

自2020年开始，BEV感知技术在自动驾驶领域崭露头角，其核心优势在于实现全方位环境感知，有效弥补了传统单目摄像头的局限，通过多传感器融合与高级算法，显著提升了车辆在复杂路况下的感知精度与安全性。

一、BEV感知的业界现状（一）智驾方案的发展与BEV感知的兴起

自动驾驶技术不断发展，BEV感知在其中扮演着愈发重要的角色。在2020年之前，L2辅助驾驶系统主导着自动驾驶市场，其功能主要包括自适应巡航（ACC）、自动紧急刹车（AEB）和车道保持辅助（LKA）等。这些功能主要聚焦于车辆前方的感知，通过单颗前置摄像头即可满足需求，此时对车辆周身360度感知的需求并不强烈，BEV感知的应用场景较少。

随着技术的进步，高速NOA和城区NOA等具备更高级功能的系统逐渐出现，这些系统增加了自主超车、无保护左转等功能，对车辆的纵向和横向控制提出了更高要求。为实现这些功能，传感器布局从单一的前视摄像头转变为360度环视布局，以获取车辆周身的动静态信息，满足复杂场景下的感知需求，这推动了BEV感知的发展。

（二）BEV感知的技术演进

在BEV感知概念明确之前，从2D图像感知结果转换到3D空间的过程主要基于规则或半规则的方法。这些方法依赖平面假设、相机内外参以及相机之间的匹配关联关系，将车道线或动态物体转换到车辆坐标系（VCS）空间，但存在诸多问题。例如，平面假设在上下坡等场景中不成立，导致测距误差；相机抖动会影响转换的准确性；跨视角检测的一致性差，给下游应用带来困难。

在泊车场景中，早期采用IPM（逆透视变换）全融合方案，基于平面假设将图像逆投影到地面并拼接成2D图进行感知，但该方案对车辆抖动敏感，依赖后处理。而BEV中融合方案则在特征层面进行融合，输出直接在3D空间，具有更好的一致性，但网络学习难度较大。

特斯拉是BEV感知的重要推动者，其坚持纯视觉路线，硬件配置多年未变，如Hardware 3.0升级到4.0，摄像头配置基本稳定。特斯拉的BEV感知网络效果出色，关键在于其强大的数据闭环能力。其网络结构包含backbone、空间融合模块、时序融合模块和任务head，采用transformer结构进行空间融合，利用Spatial RNN进行时序融合，并通过Rectify层对相机外参归一化，提升感知性能。

（三）数据标注与行业差距

数据标注是BEV感知发展中的关键环节。在传统感知中，标注在图像空间进行，简单且成本低。但BEV感知的输出在3D空间，标注难度显著增加，尤其是动态重建，纯视觉方案下的难度更高。

特斯拉采用自动标注为主、数据仿真为辅的标注方式，利用庞大的车队构建影子模式，收集车辆与驾驶员操作的差异数据，实现高效的数据采集和闭环。相比之下，国内主机厂和软硬件供应商虽也在积极开展BEV感知模型和数据闭环系统的研发，但在基础设施等方面与特斯拉仍存在较大差距，整体处于追赶阶段。

二、关键的BEV感知任务（一）BEV感知网络的基础模块

BEV感知网络主要包含空间融合和时序融合两个关键模块。空间融合负责将2D图像像素空间的检测结果转换到VCS空间，保证测距精度；时序融合则融合前后的持续信息特征，对静态物体的重建进行增强，为动态物体的跟踪、预测等任务提供基础，还能利用历史信息进行补遮挡操作，实现类似基于AI的slam建图功能。

（二）BEV空间融合的方法

1. IPM方法：IPM（逆透视变换）方法假设地面是平面，基于底层几何的可逆性，将图像上的像素点对应到平面上，计算效率较高。然而，该方法存在明显局限性，它对地面平坦和目标接地有严格要求，一旦不满足，如遇到非平面地面或空中目标，畸变会很严重，远距离感知效果也较差，有效范围通常在三五十米左右，因此更适用于泊车等近距离场景。

2. Depth方法：Depth方案是一种自底向上的方法，通过预测每个像素的深度或深度分布，将图像特征反投到3D空间，从而获得3D特征和BEV空间的feature。这种方法能得到稠密的BEV表达，但在3D检测时通常需要NMS（非极大值抑制）后处理，存在超参数优化困难和无法端到端的问题。此外，其基于单目深度估计的泛化性和性能有限，有效距离也在50米左右，计算量较大，目前应用相对较少。

3. Transformer方法：Transformer方法是当前的主流方案，它是一种自顶向上的方案，通过query和attention机制直接从全局信息预测动态或静态结果。该方法具有诸多优势，如易于实现端到端、便于多传感器融合、可将地图信息融入网络以扩大感知范围和精度等。

Transformer方法根据query的密集程度分为sparse query和dense query两种。sparse query计算量较小、效率高，适合检测类的稀疏任务，如动态物体检测；dense query有稠密的中间态表示，可进一步进行特征提取和数据增强，更适合语义分割等任务，但计算量较大，受感知范围限制。在实际应用中，dense query方法更为通用，但在平衡感知距离和精度时面临挑战，需要谨慎选择BEV空间的分辨率。

（三）BEV时序融合的方法与作用

BEV时序融合最初用于解决遮挡问题，通过利用历史信息，使网络能够判断被遮挡物体的存在。在端到端的自动驾驶系统中，不同阶段（如tracking、prediction和planning）都需要时序信息。例如，tracking需要时序上的关联来跟踪目标物体，prediction则依赖当前及历史信息预测未来物体的轨迹和状态。

实现BEV时序融合的主流方法主要有三类。Dense BEV方法，如BEVFormer中的方案，根据车辆不同时刻的pose，利用内外参直接将feature投影过去并累积；Perspective方法会在每个cell中取点，将其投影到历史帧中，获取采样点的feature并拼接；Object-centric方法以物体为中心，预测物体上的点，采用物体跟踪的方式融合feature。从Dense BEV方法到Perspective方法再到Object-centric方法，处理的点逐渐减少，处理效率逐渐提高。

（责编： admin）

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：goldenhorseconnect@gmail.com

BEV感知与智驾方案-上｜盖世大学堂舱驾、行泊一体系列知识讲解

相关阅读

最新文章

百科问答推荐