ViT在自动驾驶领域的创新应用前景如何?

ViT在自动驾驶领域的创新应用前景如何?_58汽车

ViT(Vision Transformer)在自动驾驶领域展现出巨大潜力,通过多模态数据融合、全景图像语义分割、点云3D目标检测及数据增强等任务,ViT正在逐步改变自动驾驶算法。CAT-Det等框架有效提升了多模态数据利用率,解决了激光雷达与图像数据融合难题。DAT模型则针对全景图像畸变问题提出创新解决方案。SST在点云3D目标检测中维持高分辨率,通过稀疏Transformer实现高效检测。InstaFormer则在数据增强方面展现出强大能力,有助于解决自动驾驶中数据样本不均衡问题。随着研究深入,ViT将在自动驾驶领域发挥更重要作用。

众所周知,汽车人又叫变形金刚(transform)

引言

我是一名自动驾驶感知模块开发者。在ViT(visiontransform)没有火爆之前,计算机视觉(CV)常用的算法和处理方式支撑起了感知算法的半边天,和自然语言处理(NLP)井水不犯河水。直到ViT的出现,CV和NLP所使用的算法和处理方式的边界开始模糊。加上最近两年的顶会有更多的ViT算法被运用到自动驾驶的领域中。也曾经和朋友聊过,如何看待ViT在自动驾驶领域的运用,他不以为然,觉得没啥前途,不会颠覆CNN的地位。在我对ViT的一番研究之后,我觉得self-attention的思想一定会给自动驾驶领域的算法带来质的变化。会行成一系列更加紧密,更加统一的端到端自动驾驶算法。

研究了CVPR2022部分已经公开的论文,本文尝试从ViT在自动驾驶领域的任务进行总结。在目标检测,数据增强,多模态数据处理,ViT都有很大的发挥空间。

多模态目标检测–ContrastivelyAugmentedTransformer(CAT)

论文链接:https://arxiv.org/pdf/2204.00325.pdf

论文解读:https://zhuanlan.zhihu.com/p/495154869

论文:CAT-Det:ContrastivelyAugmentedTransformerforMulti-modal3DObjectDetection

在自动驾驶中,激光雷达的数据和图像的数据是目前用于3d目标检测的主要数据。但是这;两种模态的数据差别很大,在自动驾驶上使用的时候,并没有充分的进行利用。如下图所示,远处的物体A由于距离远,激光雷达的点稀疏,导致出现漏检。本文方法可以有效的克服这个问题。

为了解决上述问题,本文提出一种全新的框架–CAT-Det,用于目标检测。CAT-Det主要包含以下几个部分如下图所示

多模态数据的融合确实是个值得研究的问题,这篇文章的融合策略更像是多模态数据的特征编码融合,将提取的多模态数据进行一次融合前的编码,然后进行融合。

全景图像的语义分割–Distortion-awareTransformers(DAT)

论文链接:https://arxiv.org/pdf/2203.01452.pdf

论文解读:https://zhuanlan.zhihu.com/p/495154869

论文:BendingReality:Distortion-awareTransformersforAdaptingtoPanoramicSemanticSegmentation

360度的全景图像包含详细的空间环境信息,给场景理解等视觉任务提供了丰富的基础信息。为了在全景分割领域展现上述360度的全景图像的潜力,需要质量更高的标注数据。虽然现在存在带有标注的样本被用于全景分割,但主要用于窄角度、针孔相机图像,这些现有的图像可以作为训练全景模型的次优资源。360全景图中的失真和明显的图像特征分布阻碍了利用针孔相机图像进行训练的进展,性能会有很大的下降。

1.提出DPE(DeformablePatchEmbedding)可变形的PatchEmbedding设计和DMLP(DeformableMLP)可变形的MLP解决全景图像中存在的畸变等问题。在这DPE和DMLP的基础上设计了用于全景分割的模型(Trans4PASS)。

在网路设计上对ViT中的按patch生成embedding改进,变成可变形的patch,有点类似可变形卷积的设计思想。另外,目前全景图像的标注样本不多,但是ViT这类算法又需要大量的样本,因此提出了MPA的学习方法。

点云3D目标检测–SinglestrideSparseTransformer(SST)

论文链接:https://arxiv.org/abs/2112.06375

论文解读:https://zhuanlan.zhihu.com/p/475885444

论文:EmbracingSingleStride3DObjectDetectorwithSparseTransformer

使用激光雷达完成3d目标检测是自动驾驶中的常见任务。与基于图像的2d目标检测不同,输入场景的尺寸要小很多。许多3d目标的检测器采用2d目标的检测方法,首先对点云进行量化和编码,然后对featuremap进行降采样,这样的做法忽略了2d检测和3d检测的区别。

主要工作

1.重新思考点云3d目标检测中的步长问题stride。并论证得出一下的结论

2.提出SinglestrideSparseTransformer(SST),维持原始输入的分辨率

凭借局部注意力机制和处理稀疏数据的能力,解决单步的感受野收缩,避免了沉重的计算开销。

针对点云目标检测任务中目标占比普遍极小问题,利用tranformer提出了单一尺度的方法,解决了丢掉下采样过程导致的感受野不够的问题。在Waymo等开源数据集上达到了SOTA

可用于数据增强的图像变换–InstaFormer

论文链接:https://arxiv.org/pdf/2203.16248.pdf

论文:InstaFormer:Instance-AwareImage-to-ImageTranslationwithTransformer

用于自动驾驶数据增强的图像生成。InstaFormer:论文提出一种全新的基于Transformer的神经网络架构用于实例感知的图像分割,命名为InstaFormer。InstaFormer可以有效的结合全局和实例层级的信息。

下图是将输入图像(晴天)变换成新的图像(雨天)的例子

在自动驾驶中,由于异常天气的数据和样本少,会造成模型的拟合能力出现问题。但是通过上述基于transorm的图像变换可以解决部分样本不够或者不均衡等问题。

总结

针对性的看了一些论文,目前CVPR2022的论文还没有全部的公开。后续肯定会有更多的ViT系列论文应用于自动驾驶的任务中,且看且更新吧。

以上内容由58汽车提供。如有任何买车、用车、养车、玩车相关问题,欢迎在下方表单填写您的信息,我们将第一时间与您联系,为您提供快捷、实用、全面的解决方案。

原创文章,作者:58汽车,如若转载,请注明出处:https://car.58.com/7188925/