Bi-Directional Attention for Joint Instance and Semantic Segmentation in Point Clouds 제2부

이준석·2022년 10월 26일
0

1 Introduction

Among the tasks of computer vision, instance segmentation is one of the most challenge ones which requires understanding and perceiving the scene in unit and instance level. Notably, the vast demands for machines to interact with real scenarios, such as robotics and autonomous driving [1, 2], make the instance segmentation in the 3D scene to be the hot research topic.
컴퓨터 비전의 작업 중 인스턴스 분할은 단위 및 인스턴스 수준에서 장면을 이해하고 인식해야 하는 가장 어려운 작업 중 하나입니다. 특히 로봇 공학 및 자율 주행[1, 2]과 같은 실제 시나리오와 상호 작용하는 기계에 대한 엄청난 요구로 인해 3D 장면의 인스턴스 분할이 뜨거운 연구 주제가 되었습니다.

Though much progress has been made, 3D instance segmentation still lags far behind its 2D counterpart [3–8]. Unlike the 2D image, the 3D scene can be represented by many forms, such as multi-view projection images [9–13], volumes [14–17], and point clouds.
많은 진전이 있었지만 3D 인스턴스 분할은 여전히 2D에 비해 훨씬 뒤떨어져 있습니다[3-8]. 2D 영상과 달리 3D 장면은 다시점 투영 영상[9–13], 볼륨[14–17], 포인트 클라우드 등 다양한 형태로 표현될 수 있습니다.

Since point clouds could represent a 3D scene more compactly and intuitively, and thus became more popular and drew more attention recently. The proposed PointNet [18] and some following works [19–28] could process the raw point clouds directly, achieving remarkable performance on 3D classification and part segmentation tasks. The success brings the prospect for more fine-grained perception tasks in 3D point clouds, such as instance segmentation.
포인트 클라우드는 3D 장면을 보다 간결하고 직관적으로 표현할 수 있어 최근 대중화되어 주목받고 있습니다. 제안된 PointNet[18] 및 일부 후속 작업[19-28]은 원시 포인트 클라우드를 직접 처리하여 3D 분류 및 부품 분할 작업에서 놀라운 성능을 달성할 수 있습니다. 성공은 인스턴스 분할과 같은 3D 포인트 클라우드에서 보다 세분화된 인식 작업에 대한 전망을 제공합니다.


Instance segmentation in point clouds requires distinguishing category and instance belonging to each point. The most direct way is to regress further each instance’s bounding box based on the semantic segmentation results, such as [29– 31].
포인트 클라우드의 인스턴스 분할은 각 포인트에 속하는 카테고리와 인스턴스를 구별해야 합니다. 가장 직접적인 방법은 [29-31]과 같은 의미론적 분할 결과를 기반으로 각 인스턴스의 경계 상자를 더 회귀하는 것입니다.

Due to the close relationship between instance segmentation and semantic segmentation, most of the recent works approach these two tasks simultaneously and use deep neural networks with two sub-branches for the two tasks, respectively [32–34].
인스턴스 분할과 의미 분할의 밀접한 관계로 인해 최근의 대부분의 작업은 이 두 작업에 동시에 접근하고 두 작업에 대해 각각 두 개의 하위 분기가 있는 심층 신경망을 사용합니다[32-34].

Among them, many take feature fusion strategy letting features for one task promote the other task. However, in fact, the features of the two tasks are not completely compatible with each other. While points belong to different semantics must belong to different instances, points in the different instances are not necessarily of the different semantics.
그 중 많은 사람들이 한 작업의 기능이 다른 작업을 촉진하도록 하는 기능 융합 전략을 사용합니다. 그러나 실제로 두 작업의 기능은 서로 완전히 호환되지 않습니다. 포인트가 다른 의미 체계에 속해야 하는 반면, 다른 인스턴스의 포인트는 반드시 다른 의미 체계에 속할 필요는 없습니다.

Obviously, directly concatenating or adding these two kinds of features in the model may lead to task conflict.
분명히 모델에서 이러한 두 종류의 기능을 직접 연결하거나 추가하면 작업 충돌이 발생할 수 있습니다.


Actually, with simple element-wise feature fusion way such as concatenating and adding, only semantic features could always help distinguish instances in all the cases.
실제로 연결 및 추가와 같은 간단한 요소별 기능 융합 방식에서는 의미적 기능만이 모든 경우에서 인스턴스를 구별하는 데 항상 도움이 될 수 있습니다.


This situation poses a question, do we still need instance features for semantic segmentation and how to make these two tasks mutually promoted?
pose 제기하다 mutually 서로의, 상호간의
이 상황은 질문을 제기한다, 우리는 여전히 의미론적 분할을 위한 인스턴스 기능이 필요하고 이 두 작업을 상호 촉진하는 방법을 필요로 하는가?

In this work, we invest another way to incorporate features for semantic and instance segmentation. Instead of explicitly fusing features, we use similarity information implied in features for one task to assist the other task.
이 작업에서 우리는 의미론적 및 인스턴스 분할을 위한 기능을 통합하는 또 다른 방법에 투자합니다. 기능을 명시적으로 융합하는 대신 한 작업에 대한 기능에 내포된 유사성 정보를 사용하여 다른 작업을 지원합니다.

Specifically, we first measure pair-wise similarity on semantic features to form the semantic similarity matrix, with which we propagate instance features. The propagation operation computes the response at a point as a weighted sum of the features at all points with semantic similarity as weight.
propagation 전파
구체적으로, 우리는 먼저 의미론적 특징에 대한 쌍별 유사성을 측정하여 의미론적 유사성 행렬을 형성하고, 이를 사용하여 인스턴스 특징을 전파합니다. 전파 작업은 의미론적 유사성을 가중치로 사용하여 모든 지점에서 특징의 가중치 합으로 지점에서의 응답을 계산합니다.

Finally, the responses are further concatenated to the original instance features for instance segmentation. The same steps are also conducted in another direction that computing instance similarity matrix to propagate semantic features for semantic segmentation.
마지막으로 응답은 인스턴스 분할을 위해 원래 인스턴스 기능에 추가로 연결됩니다. 의미론적 분할을 위한 의미론적 특징을 전파하기 위해 인스턴스 유사성 행렬을 계산하는 다른 방향에서도 동일한 단계가 수행됩니다.

The propagation operation could aggregate non-local information and is also referred to as attention [35–38]. Therefore, we name this kind of module as Bi-Directional Attention and call our networks as BAN.
전파 작업은 비-로컬 정보를 집계할 수 있으며 주의라고도 합니다[35-38]. 따라서 우리는 이러한 종류의 모듈을 양방향 주의(Bi-Directional Attention)라고 명명하고 네트워크를 BAN이라고 부릅니다.


Instance and semantic segmentation in point clouds using BAN. (a) Results on the S3DIS dataset, (b) Results on the PartNet dataset.
BAN을 사용한 포인트 클라우드의 인스턴스 및 시맨틱 세분화. (a) S3DIS 데이터 세트에 대한 결과, (b) PartNet 데이터 세트에 대한 결과.


The help of Bi-Directional Attention module lies in the following aspects.
First, for aggregation operation applied to instance features for instance segmentation, semantic similarity matrix would help push instance features belonging to the different semantic apart.
양방향 주의 모듈의 도움은 다음과 같은 측면에 있습니다.
첫째, 인스턴스 분할을 위해 인스턴스 기능에 적용되는 집계 작업의 경우 의미론적 유사성 매트릭스는 다른 의미론에 속하는 인스턴스 특징을 밀어내는 데 도움이 됩니다.

Though it will also pull instance features belonging to the same semantic together, the concatenated original instance features could still guarantee the difference distinguishable.
동일한 의미 체계에 속한 인스턴스 기능을 함께 가져오지만 연결된 원래 인스턴스 기능은 여전히 구별 가능한 차이를 보장할 수 있습니다.

Second, for aggregation operation applied on semantic features for semantic segmentation, instance similarity matrix would let semantic within each instance more consistent, thus improve the detail delineation.
둘째, 의미론적 세분화를 위한 의미론적 특징에 적용되는 집계 연산의 경우 인스턴스 유사성 매트릭스는 각 인스턴스 내의 의미론을 보다 일관되게 하여 세부 묘사를 향상시킵니다.

In addition to the positive effects when using bi-directional attention in a forward manner, the operation will also be good for back-propagating uniform gradients within the same semantic or instance.
양방향 주의를 순방향으로 사용할 때의 긍정적인 효과 외에도 동일한 의미 또는 인스턴스 내에서 균일한 기울기를 역전파하는 작업에도 좋습니다.

Consequently, our Bi-Directional Attention module could aggregate the features more properly and avoid potential task conflict.
결과적으로 양방향 주의 모듈은 기능을 보다 적절하게 집계하고 잠재적인 작업 충돌을 피할 수 있습니다.


We compare our BAN to state-of-the-art methods on prevalent 3D point cloud datasets, including S3DIS [39], PartNet [40] and ScanNetV2 [41]. Some instance and semantic segmentation results is shown in Fig. 1. In experiments, our method demonstrates consistent superiority according to most of the evaluation metrics.
BAN을 S3DIS[39], PartNet[40] 및 ScanNetV2[41]를 포함하여 널리 퍼진 3D 포인트 클라우드 데이터 세트에 대한 최신 방법과 비교합니다. 일부 사례와 의미론적 분할 결과가 그림 1에 나와 있습니다. 실험에서 우리의 방법은 대부분의 평가 메트릭에 따라 일관된 우월성을 보여줍니다.

Moreover, we conduct detailed ablation, mechanism and efficiency studies, which suggest that the similarity matrices truly reflect the required pair-wise semantic and instance similarities without too much computation complexity increase.
또한, 우리는 유사성 매트릭스가 너무 많은 계산 복잡성 증가 없이 필요한 쌍별 의미 및 인스턴스 유사성을 진정으로 반영한다는 것을 제안하는 상세한 절제, 메커니즘 및 효율성 연구를 수행합니다.


With attention operations from two directions together sequentially, BAN we can reach the best performance. Our code has been open sourced.
두 방향에서 순차적으로 주의 작업을 함께 수행하면 BAN이 최상의 성능에 도달할 수 있습니다. 우리의 코드는 오픈 소스입니다.

Here, we mainly focus on methods that are most relevant to ours.
여기서, 우리는 주로 우리의 방법과 가장 관련이 있는 방법에 초점을 맞춘다.


As well known, PointNet [18], for the first time, used neural networks to perceive point clouds and showed leading results on classification and semantic segmentation. However, it has difficulties in capturing local and fine-grained features. Correspondingly, many sequential works proposed to address this problem, such as [19–27].
잘 알려진 바와 같이, PointNet[18]은 처음으로 신경망을 사용하여 포인트 클라우드를 인식하고 분류 및 의미론적 세분화에 대한 선도적인 결과를 보여주었다. 그러나 로컬 및 세분화된 기능을 캡처하는 데 어려움이 있다. 이에 상응하여 [19–27]과 같은 많은 순차적 연구가 이 문제를 해결하기 위해 제안되었다.


Recently, instance segmentation in point clouds has drawn intense attention. Many works have been proposed and could be divided into two types in general, proposal-based and proposal-free. The former ones usually follow the scheme of Mask R-CNN [4] in 2D images, leading to a two-stage training, such as 3D-SIS [29] and GSPN [30]. Unlike them, BoNet [31] follows the one-stage scheme and regresses the bounding box directly.

Nevertheless, the bounding box sometimes contains multiple objects or just a part of an object, making proposalbased methods hard to delineate the instance precisely. In contrast, the latter ones, e.g., SGPN [42], 3D-BEVIS [43], JSIS3D [33], ASIS [32] and JSNet [34], directly produce representations to estimate the semantic categories and cluster the instance groups for each element, correspondingly, obtain more fine-grained perception.

최근 포인트 클라우드의 인스턴스 분할이 큰 관심을 끌고 있다. 많은 작품들이 제안되었으며, 일반적으로 제안 기반과 제안 없는 두 가지 유형으로 나눌 수 있다. 이전의 것들은 보통 2D 이미지에서 Mask R-CNN[4]의 체계를 따르며, 3D-SIS[29]와 GSPN[30]과 같은 2단계 훈련으로 이어진다. 그들과 달리, BoNet[31]은 1단계 체계를 따르고 경계 상자를 직접 회귀시킨다.

그럼에도 불구하고, 경계 상자는 때때로 여러 개체 또는 개체의 일부만 포함하므로 제안 기반 방법으로 인스턴스를 정확하게 설명하기 어렵다. 대조적으로, 후자(예: SGPN [42], 3D-BEVIS [43], JSIS3D [33], ASIS [32] 및 JSNet [34])는 의미론적 범주를 추정하기 위해 표현을 직접 생성하고 각 요소에 대한 인스턴스 그룹을 클러스터링하여 더 세밀한 인식을 얻는다.


It is worth to note that, whether for semantic segmentation or instance segmentation in 2D images, capturing long-range dependency and non-local information had been the consensus approach to improve accuracy. For this purpose, attention has been invented in [35], and become basic operation that applied prevalently [38, 37]. However, this operation has not been well studied for 3D point cloud perception.
2D 이미지에서 의미론적 분할 또는 인스턴스 분할의 경우 장거리 종속성 및 비국소 정보를 캡처하는 것이 정확도를 향상시키기 위한 합의된 접근 방식이었다는 점에 주목할 필요가 있다. 이러한 목적을 위해, 주의는 [35]에서 발명되었고, 널리 적용되는 기본 연산이 되었다[38, 37]. 그러나 이 작업은 3D 포인트 클라우드 인식에 대해 잘 연구되지 않았다..

3 Motivation

In this work, we intend to propose a proposal-free type of joint instance and semantic segmentation method in point clouds. For this task, the key issue is how to incorporate the features of semantic and instance efficiently for mutual benefits. In view of the close relationship between instance and semantic segmentation, JSNet [34] fuses semantic and instance features to each other by simple aggregation strategies such as element-wise add and concatenate operations. In this way, the problem can be formalized as the following equations:
본 연구에서는 포인트 클라우드에서 제안 없는 유형의 공동 인스턴스 및 의미 분할 방법을 제안하고자 한다. 이 작업의 경우 상호 이익을 위해 의미론 및 인스턴스의 기능을 효율적으로 통합하는 방법이 핵심 문제이다. 인스턴스와 의미론적 분할 사이의 밀접한 관계를 고려하여, JSNet[34]은 요소별 추가 및 연결 연산과 같은 간단한 집계 전략에 의해 의미론적 및 인스턴스 기능을 서로 융합한다. 이러한 방식으로 문제는 다음과 같은 방정식으로 공식화될 수 있다:

where S and I represent semantic and instance features of point i respectively, and C and G are the semantic category and instance group of point i. α is some simple feature aggregating method. We use F and H to represent mapping functions for semantic and instance segmentation, respectively.
여기서 S와 I는 각각 점 i의 의미론적 특징과 인스턴스 특징을 나타내고, C와 G는 점 i의 의미론적 범주와 인스턴스 그룹을 나타낸다. α는 몇 가지 간단한 특징 집계 방법이다. 우리는 각각 의미론적 분할과 인스턴스 분할을 위한 매핑 함수를 나타내기 위해 F와 H를 사용한다.

profile
인공지능 전문가가 될레요

0개의 댓글