[논문 리뷰] LGT-Net: Indoor Panoramic Room Layout Estimation with Geometry-Aware Transformer Network

김경준·2022년 7월 2일

논문

목록 보기

27/37

본 논문에서는 room layout을 floor boundary와 room heigth로 표현한다.
동일한 경도 간격으로 $N$ 개(논문에서는 256)의 point를 샘플링한 후 horizon-depth로 변환한다.
HorizonNet에서는 floor/ceiling의 위도를 예측하고 error를 계산하지만 위도 상 error가 동일하지만 horizon-depth error는 다른 경우가 있다.
(e.g. $|\phi_1-\bar{\phi}_i^f|=|\phi_1-\bar{\phi}_i^f|, |D(p_1)-D(\bar{p}_i^f)|>|D(p_2)-D(\bar{p}_i^f)|$
또한, height는 수직 방향의 영향을 크게 받기 때문에 동일한 horizon-depth error를 가지더라도 room height error는 다른 경우가 있다.
(e.g. $|D(p_3')-D(\bar{p}_i^c)|=|D(p_4')-D(\bar{p}_i^c)|, |h_3-\bar{h}^c|<|h_4-\bar{h}^c|$
따라서, horizon-depth와 room height의 error를 계산하는 omnidirectional-geometry aware loss function을 사용한다.

각 벽들이 plane임에도 불구하고 위치에 따라 horizon-depth는 다를 수 있지만 normal vector는 동일하다.
따라서, horizon-depth $d_i$ 를 3D point $p_i$ 로 변환한 뒤 normal vector를 구해 ground truth와의 -cosine similarity를 loss로 정의한다.
$M_r$ 은 $\cfrac{\pi}{2}$ 의 rotation matrix, $\bar{n}_i$ 은 normal vector의 ground truth이다.

Horizon-depth와 room height에 대한 loss는 omnidirectional-geometry awareness를 normal을 활용한 loss는 planar-geometry awareness를 향상시킨다고 볼 수 있다.

512 X 1024 X 3을 input으로 받아 ResNet-50으로부터 서로 다른 scale의 4개의 2D feature map을 뽑는다.
Height를 압축하고 각 feature map에서 width $N$ 개를 샘플링하여 $\mathbb{R}^{N \times \frac{D}{4}}$ 의 1D feature sequences를 만든다.
4개를 연결하여 $\mathbb{R}^{N \times D}$ 의 feature sequence를 output으로 낸다. $D$ 는 1024.

SWG-Transformer는 Window Block, Global Block, Shifted Window Block, Global Block으로 구성되며 2번의 loop를 돌아 총 8개의 block을 통과한다.
Window Block은 local geometry relations를 학습하는 역할로 MSA(Multi head Self-Attention) 이전에 $\frac{N}{N_w}$ (16) window feature sequences $\mathbb{R}^{N_w \times D}$ 를 구성한 후 MSA 이후 다시 merge 한다. ( $N_w$ =16)
Shifted Window Block은 인접한 window들을 연결하여 정보들이 상호작용할 수 있도록 만든다. Window partition 전에 feature sequence를 roll하며 원위치시키기 위해 merge 이후 reverse roll을 해준다.
Global Window Block은 global geometry relations를 학습하는 역할로 original Transformer의 방식을 따른다.

Pure attention module이 토큰들의 위치를 구분하는데 적합하지 않기 때문에 relative position embedding을 활용한다.
MSA의 input sequence를 $X=\{x_i\}_{i=1}^M$ , $M$ 은 sequence length, $x_i \in \mathbb{R}^D$ 라 할 때 bias matrix $B \in \mathbb{R}^{M \times M}$ 가 기존 Transformer의 Scaled Query-Key product에 추가된다.
(Shifted) Window Block에서는 $M=N_w$ (16)이며 learnable scalar table을 $\{b_k\}_{k=-N_w+1}^{N_w=-1}$ 로 정의하고 $B_{ij}$ 는 $b_{j-i}$ 에 해당한다. 이 과정을 $W- RPE$ 로 정의한다.
Global Block에서는 $M=N$ (256)이며 feature sequence가 순환하는 구조를 가지기 때문에 $b_{j-1}$ 와 $b_{j-N-i}$ 가 동일하다. 따라서, $|j-i| \le \frac{N}{2}$ 일 때는 $B_{ij}=b_{|j-i|}$ 이고 그렇지 않으면 $B_{ij}=b_{N-|j-i|}$ 인 symmetric scalar table $\{b_k\}_{k=0}^n$ 을 만든다. 이 과정을 $G-RPE$ 로 정의한다.