> 百科问答

BEV感知与智驾方案-上|盖世大学堂舱驾、行泊一体系列知识讲解

发布时间:2025-02-17 14:36:54

自2020年开始,BEV感知技术在自动驾驶领域崭露头角,其核心优势在于实现全方位环境感知,有效弥补了传统单目摄像头的局限,通过多传感器融合与高级算法,显著提升了车辆在复杂路况下的感知精度与安全性。

一、BEV感知的业界现状(一)智驾方案的发展与BEV感知的兴起

自动驾驶技术不断发展,BEV感知在其中扮演着愈发重要的角色。在2020年之前,L2辅助驾驶系统主导着自动驾驶市场,其功能主要包括自适应巡航(ACC)、自动紧急刹车(AEB)和车道保持辅助(LKA)等。这些功能主要聚焦于车辆前方的感知,通过单颗前置摄像头即可满足需求,此时对车辆周身360度感知的需求并不强烈,BEV感知的应用场景较少。 

随着技术的进步,高速NOA和城区NOA等具备更高级功能的系统逐渐出现,这些系统增加了自主超车、无保护左转等功能,对车辆的纵向和横向控制提出了更高要求。为实现这些功能,传感器布局从单一的前视摄像头转变为360度环视布局,以获取车辆周身的动静态信息,满足复杂场景下的感知需求,这推动了BEV感知的发展。

(二)BEV感知的技术演进

在BEV感知概念明确之前,从2D图像感知结果转换到3D空间的过程主要基于规则或半规则的方法。这些方法依赖平面假设、相机内外参以及相机之间的匹配关联关系,将车道线或动态物体转换到车辆坐标系(VCS)空间,但存在诸多问题。例如,平面假设在上下坡等场景中不成立,导致测距误差;相机抖动会影响转换的准确性;跨视角检测的一致性差,给下游应用带来困难。 

在泊车场景中,早期采用IPM(逆透视变换)全融合方案,基于平面假设将图像逆投影到地面并拼接成2D图进行感知,但该方案对车辆抖动敏感,依赖后处理。而BEV中融合方案则在特征层面进行融合,输出直接在3D空间,具有更好的一致性,但网络学习难度较大。 

特斯拉是BEV感知的重要推动者,其坚持纯视觉路线,硬件配置多年未变,如Hardware 3.0升级到4.0,摄像头配置基本稳定。特斯拉的BEV感知网络效果出色,关键在于其强大的数据闭环能力。其网络结构包含backbone、空间融合模块、时序融合模块和任务head,采用transformer结构进行空间融合,利用Spatial RNN进行时序融合,并通过Rectify层对相机外参归一化,提升感知性能。

(三)数据标注与行业差距

数据标注是BEV感知发展中的关键环节。在传统感知中,标注在图像空间进行,简单且成本低。但BEV感知的输出在3D空间,标注难度显著增加,尤其是动态重建,纯视觉方案下的难度更高。 

特斯拉采用自动标注为主、数据仿真为辅的标注方式,利用庞大的车队构建影子模式,收集车辆与驾驶员操作的差异数据,实现高效的数据采集和闭环。相比之下,国内主机厂和软硬件供应商虽也在积极开展BEV感知模型和数据闭环系统的研发,但在基础设施等方面与特斯拉仍存在较大差距,整体处于追赶阶段。

二、关键的BEV感知任务(一)BEV感知网络的基础模块

BEV感知网络主要包含空间融合和时序融合两个关键模块。空间融合负责将2D图像像素空间的检测结果转换到VCS空间,保证测距精度;时序融合则融合前后的持续信息特征,对静态物体的重建进行增强,为动态物体的跟踪、预测等任务提供基础,还能利用历史信息进行补遮挡操作,实现类似基于AI的slam建图功能。

 

(二)BEV空间融合的方法

1. IPM方法:IPM(逆透视变换)方法假设地面是平面,基于底层几何的可逆性,将图像上的像素点对应到平面上,计算效率较高。然而,该方法存在明显局限性,它对地面平坦和目标接地有严格要求,一旦不满足,如遇到非平面地面或空中目标,畸变会很严重,远距离感知效果也较差,有效范围通常在三五十米左右,因此更适用于泊车等近距离场景。

2. Depth方法:Depth方案是一种自底向上的方法,通过预测每个像素的深度或深度分布,将图像特征反投到3D空间,从而获得3D特征和BEV空间的feature。这种方法能得到稠密的BEV表达,但在3D检测时通常需要NMS(非极大值抑制)后处理,存在超参数优化困难和无法端到端的问题。此外,其基于单目深度估计的泛化性和性能有限,有效距离也在50米左右,计算量较大,目前应用相对较少。

3. Transformer方法:Transformer方法是当前的主流方案,它是一种自顶向上的方案,通过query和attention机制直接从全局信息预测动态或静态结果。该方法具有诸多优势,如易于实现端到端、便于多传感器融合、可将地图信息融入网络以扩大感知范围和精度等。 

Transformer方法根据query的密集程度分为sparse query和dense query两种。sparse query计算量较小、效率高,适合检测类的稀疏任务,如动态物体检测;dense query有稠密的中间态表示,可进一步进行特征提取和数据增强,更适合语义分割等任务,但计算量较大,受感知范围限制。在实际应用中,dense query方法更为通用,但在平衡感知距离和精度时面临挑战,需要谨慎选择BEV空间的分辨率。

(三)BEV时序融合的方法与作用

BEV时序融合最初用于解决遮挡问题,通过利用历史信息,使网络能够判断被遮挡物体的存在。在端到端的自动驾驶系统中,不同阶段(如tracking、prediction和planning)都需要时序信息。例如,tracking需要时序上的关联来跟踪目标物体,prediction则依赖当前及历史信息预测未来物体的轨迹和状态。 

实现BEV时序融合的主流方法主要有三类。Dense BEV方法,如BEVFormer中的方案,根据车辆不同时刻的pose,利用内外参直接将feature投影过去并累积;Perspective方法会在每个cell中取点,将其投影到历史帧中,获取采样点的feature并拼接;Object-centric方法以物体为中心,预测物体上的点,采用物体跟踪的方式融合feature。从Dense BEV方法到Perspective方法再到Object-centric方法,处理的点逐渐减少,处理效率逐渐提高 。

(责编: admin)

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:goldenhorseconnect@gmail.com

?