Superpoint Transformer for 3D Scene Instance Segmentation（未完待续）

论文地址
 代码地址
 论文解读

摘要

现有的大多数方法通过扩展用于3D对象检测或3D语义分割的模型来实现3D实例分割。然而，这些非直截了当的方法有两个缺点：

1)不精确的边界框或不令人满意的语义预测限制了整体3D实例分割框架的性能。
2)现有方法需要耗时的聚合中间步骤。

针对这些问题，本文提出了一种基于超点变换的端到端3D实例分割方法SPFormer。它将点云中的潜在特征分组为超点，并通过查询向量直接预测实例，而不依赖于对象检测或语义分割的结果。

该框架的关键是设计了一种带transformer的查询解码器，通过超点交叉注意机制捕获实例信息，并生成实例的超点掩码。
通过基于超点掩码的二分图匹配，SPFormer无需中间聚合步骤即可实现网络训练，加快了网络的运行速度。
在ScanNetv2和S3DIS基准测试程序上的大量实验验证了该方法的简明性和有效性。值得注意的是，在ScanNetv2隐藏测试集上，SPFormer在MAP方面比现有的方法高出4.3%，同时保持了快速的推理速度(每帧247ms)。

引言

3D场景理解被认为是许多应用的基本要素，包括增强/虚拟现实(Park等人)。2020)、自动驾驶(周等人2020)和机器人导航(谢等人2021年)。通常情况下，实例分割是三维场景理解中的一项具有挑战性的任务，其目的不仅是检测稀疏点云上的实例，而且为每个实例提供清晰的掩码。

图1：不同方法的关键流程。(A)是输入点云。(B)基于proposal的方法首先检测对象。(C)基于分组的方法将点偏移到它们自己的实例中心和组点。(D)我们的方法通过超点交叉注意来突出感兴趣区域。

现有的最先进的方法可以分为基于proposal的方法(Yang等人)。2019年；刘等人。2020)和基于分组(酱等人2020年；Chen等人。2021年；梁等人。2021年；Vu等人。2022年)。

基于proposal的方法将3D实例分割视为一条自上而下的pipeline。它们首先生成区域proposals(即边界框)，如图1(B)所示，然后预测proposes区域中的实例掩码。这些方法受到MASK-RCNN巨大成功的鼓舞(他等人)。2017)在2D实例分段字段上。然而，由于域间隙的原因，这些方法在点云上遇到了困难。在三维领域中，包围盒具有更多的自由度(DoF)，增加了拟合的难度。此外，点通常只存在于物体表面的一部分，这导致无法检测到物体的几何中心。此外，低质量的区域proposal影响基于盒的二分图匹配(Yang等人。2019年)，并进一步降低了模型的性能。
相反，基于分组的方法采用自下而上的pipeline。它们学习逐点语义标签和实例中心偏移量。然后，它们使用偏移点和语义预测来聚集成实例，如图1(C)所示。在过去的两年中，基于分组的方法在3D实例分割任务中取得了很大的改进(梁等人)。2021年；Vu等人。2022年)。但也存在一些不足：
- (1)基于分组的方法依赖于它们的语义分割结果，这可能导致错误的预测。将这些错误预测传播到后续处理会抑制网络性能。
- (2)这些方法需要一个中间的聚合步骤，增加了训练和推理时间。聚合步骤独立于网络训练，缺乏监督，需要额外的细化模块。

本文提出了一种基于超点变换的端到端两阶段3D实例分割方法SPFormer。SPFormer自下而上地将点云中的潜在特征分组到超点中，并通过查询向量将实例proposes作为自上而下的pipeline。

在自下而上的分组阶段，利用稀疏的三维U-net提取自下而上的逐点特征。提出了一种简单的超点池化层，用于将潜在的逐点特征分组为超点。超点(Landrieu和Simonovsky 2018)可以利用几何规则来表示均匀的邻接点。与以前的方法(梁等人)不同2021)，我们的超点特征是潜在的，避免了通过非直截了当的语义和中心距离标签来监督特征。==我们将超点作为3D场景潜在的中层表示，并直接使用实例标签来训练整个网络。==
在自上而下的提proposal阶段，提出了一种新的带transformers的查询解码器。我们利用可学习的查询向量从潜在的超点特征中提出实例预测，作为自顶向下的pipeline。可学习查询向量通过超点交叉注意机制捕获实例信息。图1(D)示出了这样的过程，即椅子的部分越红，查询向量就越关注。利用携带实例信息和超点特征的查询向量，查询解码器直接生成实例类、得分和掩码预测。最后，通过基于超点掩码的二分图匹配，SPFormer可以实现端到端的训练，而不需要耗时的聚合步骤。此外，SPFormer没有像非最大值抑制(NMS)那样的后处理，进一步加快了网络速度。

SPFormer在ScanNetv2和S3DIS基准测试中都达到了最先进的水平。特别是，SPFormer在定性和定量指标以及推理速度方面都超过了同类最先进的方法。SPFormer采用了一种新的流水线，可以作为3D实例分割的通用框架。总而言之，我们的贡献如下：

我们提出了一种端到端的两阶段方法SPFormer，该方法不依赖于目标检测或语义分割的结果来表示具有潜在超文本特征的3D场景。
设计了一个带有transformers的查询解码器，其中可学习的查询向量可以通过超点交叉注意来捕获实例信息。通过查询向量，查询解码器可以直接生成实例预测。
通过基于超点掩码的二分图匹配，SPFormer可以实现网络训练，而不需要耗时的中间聚合步骤，也不需要复杂的推理后处理。

方法

SPFormer的体系结构如图2所示。首先，使用稀疏的3D U-net来提取自下而上的点状特征。提出了一种简单的超点池化层，用于将潜在的逐点特征分组为超点。其次，提出了一种新的带变换的查询解码器，其中可学习的查询向量通过超点交叉注意来获取实例信息。最后，通过基于超点掩码的二分图匹配，SPFormer可以实现端到端的训练，而不需要耗时的聚合步骤。

Backbone and Superpoints

稀疏3D U-net。

假设输入点云有N个点，输入可以表示为P∈RN×6。每个点都有颜色r，g，b和坐标x，y，z。在前面的实现(Graham，Engelcke和Van Der Maten 2018)之后，我们将点云体素化用于常规输入，并使用子流形稀疏卷积(SSC)或稀疏卷积(SC)组成的U-net骨干来提取点特征P∈RN×C。我们在补充材料中给出了稀疏3D U-net的细节。与常用的基于分组的方法不同，我们的方法不增加额外的语义分支和偏置分支。

超点池化层。

为了构建端到端框架，我们直接将逐点功能P∈RN×C馈送到基于预计算超点的超点池层(Landrieu和Simonovsky 2018年)。超点池化层通过对每个超点内部的逐点平均池化，简单地获得超点特征S∈Rm×C。在不失去一般性的情况下，我们假设从输入点云计算出M个超点。值得注意的是，超点池化层可靠地将输入点云下采样到数百个超点，这显著降低了后续处理的计算开销，并优化了整个网络的表示能力。

Large-scale point cloud semantic segmentation with superpoint graphs.

查询解码器

查询解码器由实例分支和掩码分支组成。在MASK分支中，一个简单的多层感知器旨在提取掩码感知特征SMASK∈Rm×D。实例分支由一系列transformer解码器层组成。它们通过超点交叉注意来解码可学习的查询向量。假设有K个可学习的查询向量。我们预定义了来自各transformer解码层的查询向量的特征为Z∈RK×D，D为嵌入维度，=1，2，3…是层索引。

oceanechy

http://oceanechy.github.io/2023/12/03/superpoint2/