由于数据分布的不平衡,预测类别概率的分类器会使低样本类别的分类得分远小于许多样本类别的得分,导致语义误分类。为了增强罕见类别的监督信号,作者首先采用基于[4]的一对多组分配,旨在使每个掩码Query获得多个阳性匹配对。然而,实验表明这种简单的分组策略无效,不能带来性能提升。
结果如表2所示,作者可以观察到所有组件都做出了自己的性能贡献。Baseline在没有长期时间信息的情况下,实现了70.36%的IoU和36.01%的mIoU。
显式-隐式视图变换是BEV感知中将2D图像特征转换为BEV表示的关键步骤。为了构建可以保留更多3D几何信息的3D表示,作者扩展了显式-隐式VT来构建OCC表示。
作者希望COTR能激发进一步的研究,以便更好地理解基于视觉的3D占用预测及其在自动驾驶车辆感知中的应用。
视图变换可以广泛地分为两种类型:一种是依赖显式深度估计形成伪点云并构建3D空间,另一种是预先定义BEV空间并隐式地通过空间交叉注意力建模深度信息,将图像特征映射到相应的3D位置。
尽管BEV感知在3D目标检测方面表现出色,但在驾驶场景中处理异常情况(如不规则障碍物和超词汇目标)时仍会遇到挑战。为了缓解这些挑战,提出了3D占用预测任务。
如表1所示,作者在Occ3D-nuScenes上的3D占用预测任务现有最先进方法的定量比较。作者将作者的方法集成到TPVFormer和BEVDet4D中,作者的方法在几何完整性和语义分割方面都取得了显著的性能改进,分别比Baseline提高了3.8%,1.2%的IoU和5.1%,5.2%的mIoU。
其次,作者引入了一个从粗粒度到细粒度的语义感知组解码器。作者首先根据语义粒度和采样数量将真实标签划分为几组。然后,对于每个语义组,作者生成相应的掩码Query,并基于分组的一对多任务训练网络。分组策略导致平衡的监督信号,显著增强了识别不同类别的能力,从而得到紧凑的语义和几何感知的OCC表示。
OccNet通过构建一个通用的占用嵌入,将感知到规划的端到端框架进行桥接。FBOcc提出了一种基于BEV特征的前向-后向视图转换模块,以解决不同视图转换的局限性。虽然上述方法在占用预测任务上取得了初步进展,但大多数方法仍然遵循BEV感知框架,直接将BEV特征转换为OCC特征进行最终预测。它们没有考虑原始OCC表示的稀疏性和缺乏语义判别性。
在本节中,作者提出了一种语义感知的组解码器,进一步增强了紧凑OCC特征的几何占用,同时大大提高了语义判别性。作者将从一个旨在证实作者的主张的*实验开始,即占用特征缺乏语义判别性,这严重阻碍了罕见物体的识别。随后,作者将详细介绍作者粗糙到细粒度的语义分组策略。
在图5中,作者根据标签分布比较了采用语义感知组解码器(SGD)的结果。很明显,数据集中存在明显的类别不平衡现象,例如,6个背景类别占总标签的93.8%。SGD通过Transformer解码器和粗粒度到细粒度的语义分组在每组内平衡监督,显著增强了紧凑占用表示的语义判别性。
为了深入探究不同模块的影响,作者在基于BEVDet4D的Occ3d-nuScenes上进行ablation实验。
3D视觉感知正在从鸟瞰(BEV)感知过渡到占用(OCC)感知。BEV感知在多*输入的3D目标检测任务中表现出色,因为它们具有统一的表示能力,在BEV平面上极大地缓解了遮挡问题。然而,其在压缩高度维度方面的不足,在保持3D场景的全面理解方面,面临着挑战。
标签: #矿池 #中转 #教程 #解决 #个人 #挖矿 #加入
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:goldenhorseconnect@gmail.com