본 논문에서는 에지 요소 감지 및 지각 그룹화 프로세스에 대한 표준 휴리스틱 설계를 생략하고 토큰화된 쿼리, 자체 메커니즘 및 인코딩 디코딩 전략을 transformer내에 통합했다.
-->transformer 기반 공동 end to end 라인을 설계하여 기존의 edge/junction/region detection+proposals+perceptual 그룹화 파이프라인을 skip한다.
(a)holistically-attracted wireframe parsing (HAWP)
(b)proposed LinE segment TRansformers (LETR)
(LETR은 현재 논문에서 제시하고 있는 구조이다.)
기존의 접근 방식
일반적으로 라인 감지는 에지 감지를 수행한 후 그룹화 프로세스를 수행한다. 기존의 그룹화 프레임워크는 낮은 수준의 단서를 취합하여 상향식으로 라인 세그멘트를 형성한다. 이미지는 유사한 픽셀 단위 특징을 그룹화하여 line-support 영역으로 분할된다. 그런 다음 라인 세그먼트는 line-support 영역에서 근사치를 계산하고 false positive를 제거하기 위해 검증 단계를 통해 필터링 된다. 또 다른 방법은 파라미터 공간에서 표를 수집하여 허프(hough) 변환을 기반으로 한다.
딥러닝 기반 접근 방식
L-CNN은 junction proposal 모듈이 junction heatmap을 생성하고 탐지된 junction에 대하여 line proposal로 변환한다. 그리고 라인 검증 모듈은 false-positive 라인들을 제거한다.
AFM은 관련 line을 가리키며 2D 투영 벡터를 포함하는 attraction field 맵을 제안한다. 그런 다음 스퀴즈 모듈이 attraction field 맵에서 벡터화된 라인 세그멘트를 복구한다.
(a)와 같이 HAWP는 AFM과 L-CNN의 하이브리드 모델을 구축한다.
LETR 파이프라인의 구조: 이미지는 백본 네트워크(ResNet 구조에) 공급되고 두 개의 feature맵을 생성하며, 그 다음 각각 coarse 및 fine 인코더에서 사용된다. 그런 다음, coarse 디코더에 의해 초기 coarse 인코더로 부터 나온 feature들을 정제된다. 그 feature들은 다시 fine 디코더로 들어가며 좋은 feature들이 나온다. 마지막으로 라인 세그먼트들은 feed-forward networks(FFNs)에 의해 감지된다.
Bounding box representation: 바운딩 박스 대각선을 사용하여 line 세그멘트를 나타내기 어려운 세가지의 경우
- Classification Loss
binary cross entropy loss를 기반으로
{ } 항은 positive 예측 지수를 나타낸다.
- Distance Loss
d( , ) 항은 예측 좌표와 대상 좌표 사이의 L1거리의 합을 나타낸다. distance loss는 positive 예측에만 적용된다.
- Total Loss
좀 더 공부를 해봐야겠다...아직 이해가 되질 않는다...