给自动驾驶AI搞个“外挂”显著提升运动状态判别力丨CVPR开源_模子_物体

2024-11-07 14:41:10 计算机

只需“100K大小的外挂”，就能让自动驾驶AI识别“物体运动状态”的能力大幅上升！

给自动驾驶AI搞个“外挂”显著提升运动状态判别力丨CVPR开源_模子_物体计算机

这是一项来自喷鼻香港大学打算机视觉与机器智能实验室（CVMI Lab）和TCL AI Lab的新研究，目前论文已被CVPR 2023收录。

研究提出了一种叫做MarS3D的轻量级模型，给原来只能识别物体“是什么”的语义分割模型用上后，就能让它们进一步学会识别这些物体“是否在动”。

而且是任意主流模型即插即用，险些不须要额外的打算量（推理韶光只增加不到0.03秒），目前已开源。

要知道，对付靠激光雷达来判断周围环境的自动驾驶系统而言，其感知能力，很大程度上依赖于3D点云语义分割模型的准确率和效率。

如果想提升模型识别“运动物体”的能力，每每须要将繁重的室外多帧点云数据分别进行特色提取和处理，但这种方法不仅要增加大量打算，识别性能也没提升多少，属实是事倍功半。

比较之下，MarS3D参数量只有约100K大小，却能将主流点云分割模型的性能提升近5%。

这究竟是怎么做到的？

100K参数让模型学会识别“运动”物体

首先要理解一下3D点云的两种语义分割任务，单扫描（single-scan）和多扫描（multi-scan）。

这两种方法的核心差异，在于能否区分物体的运动状态。

单扫描任务只须要根据单帧点云，把场景中汽车、行人、道路等语义信息分割并标注出来。
像下图，不同的颜色代表不同的物体，如蓝色的点云代表车：

多扫描任务，则须要根据时序上的多帧点云，同时分割语义信息和运动状态。

换言之，不仅要学会区分汽车、行人、道路，还得识别这些物体是否在运动。
如汽车标签扩展成“运动的车”和“不动的车”，以及行人扩展成“运动的行人”和“不动的行人”：

目前，自动驾驶做激光雷达点云数据的处理，紧张还是通过单扫描语义分割方法。

虽然能通过扩展标签、领悟点云数据，直接将单扫描模型演习成多扫描模型，从而让AI节制识别物体运动状态的能力，但存在两个问题：

一个是性能奏效一样平常；另一个是领悟点云数据量大，导致这种模型繁芜、打算韶光长，而这正是“争分夺秒”的自动驾驶系统无法接管的。

为理解决这两个问题，让语义分割模型又快又好地节制识别“运动物体”的方法，MarS3D横空出世。

纵然之前模型只能做单扫描语义分割，给它加个MarS3D后，不仅能大幅提升多扫描语义分割能力，区分物体“是否在运动”，效果还比其他多扫描方法更好。

以是，MarS3D的核心思路是什么？

详细来说，模型设计了一个基于2D CNN网络的分支BEV Branch，这个模型能提取点云数据转换的BEV（Bird’s Eye View）表征，即自上而下的鸟瞰视角。

之以是选用BEV，紧张有两个缘故原由。

一方面，目前的运动物体基本都是在地上跑（纵然在空中飞，也险些不存在垂直上升的情形），也便是说，险些所有的运动都在水平面上有位移，因此它能很好地反响物体在绝大部分场景中的运动状态；

另一方面，BEV比较点云数据量更小，还能通过参考帧和特色图相减，降落点云稀疏性带来表征不稳定的问题，即同样静态区域的表征近似，含有动态物体区域的表征间隔更远。
此外，多尺寸卷积对表征抽取特色图，以担保模型对不同运动速率的物体都有很强感知力。

随后，将这个分支提取的运动状态信息特色、和其他被时序嵌入向量增强的单扫描任务模型分支3D Branch提取的语义信息特色结合起来，进行特色领悟，终极实现语义分割。

那么，这样实现的3D点云语义分割，效果究竟怎么样？

几十毫秒打算，分割性能提升近5%

比较和其他输入如RGB图像进行结合，论文重点测试了模型针对纯点云输入的分割效果。

从下表可见，对付SemanticKITTI数据集，在目前主流的单扫描点云分割模型如SPVCNN、SparseConv和MinkUNet上，MarS3D在只给模型增加0.1M的情形下（参数量增加不到0.5%），将性能（mIoU）分别提升了4.96%、5.65%和6.24%。

同时，打算韶光（延迟）只增加了19ms、14ms和28ms。

5%对付模型分割性能提升有多显著？下图是在两个扫描场景中，模型增加MarS3D前和增加后的效果比拟，个中左图是增加前，中间是增加后，右边是真实值：

显然，增加MarS3D后模型识别物体的效果要更好。

直接将分割效果和真实值比拟，可见增加MarS3D后的“缺点值”，比增加前要低不少：

全体推理过程，只须要一块英伟达GeForce RTX 3090 GPU就能搞定。

对MarS3D感兴趣的小伙伴们，可以去试试了~

项目地址：https://github.com/CVMI-Lab/MarS3D

论文地址：https://arxiv.org/abs/2307.09316

— 完 —

量子位 QbitAI · 号签约

关注我们，第一韶光获知前沿科技动态

本文系作者个人观点，不代表本站立场，转载请注明出处！

模型物体

给自动驾驶AI搞个“外挂”显著提升运动状态判别力丨CVPR开源_模子_物体

热门内容

随机文章

推荐内容

最新内容

TAGS标签

给自动驾驶AI搞个“外挂”显著提升运动状态判别力丨CVPR开源_模子_物体

相关推荐

三视图在绘图中的应用与方法

书模型,引领未来阅读体验的创新探索

介绍投掷器的使用方法,高效与安全的完美结合

光影之间，绘出灵魂_谈如何画好阴影

地理模型语言的魅力,探索地理信息技术的创新与发展

栏目热门

热门内容

随机文章

推荐内容

最新内容

TAGS标签