自动驾驶感知能力比试，浪潮信息算法团队再创nuScences成绩新高

时间：2023-04-24作者：佚名

　　近日，在全球权威的自动驾驶nuScenes竞赛最新评测中，浪潮信息算法团队所提交的"IEI-BEVFusion "算法模型在关键性指标nuScenes Detection Score(NDS)得到77.6%的高分，创造了3D目标检测全赛道迄今最高成绩。继去年以"DABNet4D"登顶纯视觉3D目标检测榜单后，该算法团队在面向融合感知自动驾驶领域再一次实现突破。

　　nuScenes数据集是目前自动驾驶领域中最流行的公开数据集之一，数据采集自波士顿和新加坡的实际自动驾驶场景，是第一个集成摄像头、激光雷达和毫米波雷达等多种传感器，实现360度全传感器覆盖的数据集。nuScenes数据集提供了二维、三维物体标注、点云分割、高精地图等丰富的标注信息，包含1000个场景，拥有140万帧图像、39万帧激光雷达点云数据、23个物体类别、140万个三维标注框，其数据标注量比KITTI数据集高出7倍以上。

　　犹如人类的眼睛为大脑提供了70%以上的信息，在自动驾驶领域，作为感知系统的主流模式架构，Lidar与Camera融合的3D多模态架构则为实现高鲁棒、高精度的3D目标检测提供了至关重要的信息输入，为业内提供更具通识性的解决方案。此次创nuScenes榜单成绩新高的"IEI-BEVFusion "算法模型正是应用了3D多模态融合架构的思路，将Lidar与Camera形成有效的交互融合。

　　Lidar与Camera的多模态交互融合，面临巨大挑战

　　3D目标检测作为自动驾驶至关重要的核心任务，面向强大的环境感知，自动驾驶车辆通过广泛车载传感器的信息输入，实现精准的目标检测。以Lidar为例，它可以有效精准地捕捉空间信息，点云数据所具备的天然3D优势，最大程度地提升了检测目标的测距精度、速度及方向;而Camera的优势则在于，它具备丰富的纹理信息，强大的语义及图像上下文理解能力使得它可以有效地识别行人、交通指示牌等具象化的路面信息。因此，Lidar与Camera融合的3D多模态架构将深度信息与纹理信息形成有效的交互融合，为更精准的3D目标检测提供了一种全新思路。

　　然而，将两种截然不同的模态几何和语义特征在一个表示空间内相结合，这是一个巨大的挑战。一方面，预估检测目标的深度信息是提升3D目标检测精度的关键，现有模态的融合通常关注于点云雷达及Camera虚拟点间的交互，但由于点云雷达远比Camera数据稀疏得多，传统的融合方式无法解决固有模态间的深度信息差距。另一方面，在跨模态的融合交互中，点云雷达涉及体素的精细划分及大量的3D卷积计算，图像则由于多摄像头、高分辨率，复杂的特征提取网络，两者计算复杂且耗时长。因此，不同形态的数据整合也为多模态融合模型的训练速度和检测精度带来了新一层算力压力。

　　NDS 77.6%, 多模态融合模型"IEI-BEVFusion "刷新全赛道记录

　　IEI-BEVFusion 多模态融合模型，通过更有效的多模态训练架构、更精细的特征提取网络、更强大的数据预处理能力，实现Lidar与Camera的高效特征提取与融合优化。激光雷达点云特征为Camera数据提供检测目标的精确3D信息，Camera发挥其纹理轮廓及语义理解优势，进一步精细化点云区域特征，形成Liar与Camera的数据最大化互补，大幅优化了模型的检测精度。

　　基于Lidar与Camera的多模态融合模型架构，实现了三大核心技术突破：