[논문 정리] R-MAE: Regions Meet Masked Autoencoders

bluein·2024년 2월 29일
0
post-thumbnail

https://arxiv.org/abs/2306.05411


Abstract

  • Vision-specific concepts인 '영역(region)'과 같은 것들은 객체 감지(object detection)와 같은 작업으로 일반적인 기계 학습 프레임워크를 확장하는 데 중요한 역할을 해옴
  • Supervised learning을 위한 region-based detector의 성공과 contrastive learning의 intra-image 방법의 발전을 고려할 때, 우리는 reconstructive pre-training을 위한 region의 사용을 탐구
  • Masked Autoencoding (MAE)를 기준으로 하고 영감을 받은 것으로 시작하여, 우리는 image와 region 간의 일대다 매핑에 대응하기 위해 맞춤형 병렬 pre-text task를 제안
  • 이러한 region은 unsupervised 방식으로 생성될 수 있으므로, 우리의 접근 방식(R-MAE)은 MAE로부터의 광범위한 적용 가능성을 유지하면서도 보다 'region에 대한 인식'이 높음
  • 본 논문에서 제안하는 R-MAE는, MAE에 비해 1.3%의 오버헤드를 갖는 효과적이고 효율적인 변형에 수렴
  • 더불어, 이는 다양한 pre-training 데이터 및 downstream detection 및 segmentation 벤치마크에 일반화될 때 일관된 양적 개선을 보임
  • 마지막으로, R-MAE의 동작 및 잠재력을 이해하기 위한 광범위한 qualitative visualizations를 제공

1. Introduction

  • 컴퓨터 비전 및 특히 object detection과 같은 localization-geared task에 대해서는 ‘region’이라는 개념 중 하나가 있음
  • 인간의 지각이 유사한 요소와 부분을 그룹화하여 복잡한 장면과 객체를 해석한다고 가정
  • 이 가설은 R-CNN 시리즈에 의해 실험적으로 검증되었음
  • 그럼에도 불구하고, region-refinement는 사람이 만든 주석에 기반한 최고의 성능 detector에서 여전히 필수 구성 요소로 남아 있음
  • Masked Autoencoding(MAE)와 같은 reconstructive pre-training method는 더욱 효과적으로 입증되어 빠른 수렴을 넘어서 detection 정확도의 상한을 향상 시킴
  • 아래 오른쪽 그림 처럼, 이러한 프레임워크에 어떻게 region을 도입할 수 있는지와 그것이 downstream 성능을 더욱 개선할 수 있는지는 아직 명확하지 않음

  • 이 논문의 목표는 이 공백 (Masking)을 채우는 것
  • 대표적인 기준으로서 MAE를 시작으로하고, MAE 스타일의 pre-computed된 region의 사용을 탐색
  • 구체적으로는 'masked Region Autoencoding' (RAE)라는 pre-text task를 제안
  • MAE와 유사하게, RAE도 reconstructive
  • 그러나 MAE와 달리, RAE는 영역 또는 'region map'에 중점을 둠
  • 이는 pixel이 region에 속하는지 여부를 나타내는 binary value map으로 region을 나타냄

  • 먼저 컴퓨터 비전에서 인기를 끌게 된 region의 두 가지 내재적 특성을 검토

Local

  • 이미지는 일반적으로 기계 학습 알고리즘에서 전체적인 엔티티로 취급
  • 현실 세계의 사진은 풍부한 공간 구조를 가지며 동일한 장면에서 local contents가 다양할 수 있음
  • 이는 특히 지역 관심 영역(Region-of-Interest, RoI) 연산이 region feature map에 적용될 때 잘 알려진 R-CNN 시리즈에 대한 강력한 동기부여가 됨
  • 반면에, reconstructive method는 denoising autoencoder와 같이 2D 구조를 보존
  • 따라서 region이 이런 관점에서 어떻게 더 도움이 될 수 있는지는 아직 명확하지 않음

Object-centric

  • 어쩌면 이것이 region이 MAE와 만나는 더욱 동기부여적인 이유일지도 모름
  • Reconstructive learning은 자연어 representation의 pre-training에서 우세한 패러다임
  • 그리고 꾸준한 진전이 이루어지고 있음에도 불구하고, 컴퓨터 비전 모델들은 여전히 뒤쳐지고 있음
  • 두 분야 간의 중요한 차이점 중 하나는 언어가 의미 있는 단어로 구성되어 있지만 이미지는 픽셀로 기록된 raw signal 이라는 것

3. Approach

Background on Masked Autoencoding

  • Masked Autoencoding (MAE)는 이미지의 일부를 균일하게 마스킹하고 원시 픽셀 값을 직접 예측하여 재구성하는 방식으로 학습 (Autoencoder)
  • 이미지는 기본적으로 높은 마스크 비율 βI(예: 75%)을 사용
  • Reconstruction은 간단한 l2 loss와 실제 값과 비교
  • Pre-training 이후, 픽셀 인코더는 downstream task를 위한 visual backbone으로 사용

3.1 RAE: MASKED REGION AUTOENCODING

Region maps

  • Masked region autoencoding을 수행하기 위해, 먼저 MAE를 따라가서 그것들을 'image-like' 하게 준비
  • 구체적으로, 각 region은 이미지와 유사한 크기의 binary value region map으로 나타낼 수 있음
  • Map 상의 각 요소는 해당 위치가 region에 속하는지 여부를 나타내는 0 또는 1의 값으로 구성
  • 부분적으로 보이는 region map(마스크 비율 βR)가 주어졌을 때, 모델에게 pixel에 대해 MAE가 하는 것과 동일하게 예측하도록 요청

Architecture

  • MAE와 유사하게, region autoencoding을 위한 encoder와 decoder로 구성
  • MAE와 같이 ViT 블록 사용
  • 그러나 region encoder-decoder 쌍만으로는 충분하지 않음
  • 궁극적인 목표는 pre-trained pixel encoder를 얻는 것이기 때문
  • 따라서 pixel encoder를 유지하고, 차원을 맞추기 위해 단일 ViT 블록의 neck을 사용하고 (선택적으로) 정보를 전파한 후 region decoder로 입력
  • 이러한 구성은 또한 효과적으로 pixel에서 사용 가능한 풍부한 context 정보를 사용하여 encoder를 pre-training

One-to-many mapping

  • Region은 pixel-based MAE에 추가적인 모달리티로 간주될 수 있지만, 여기서 다루는 문제는 이러한 관점만으로 완전히 포착될 수 없는 독특한 도전을 제시
  • 다른 모달리티(예: depth 또는 semantic maps)와 비교했을 때, 이미지와 region 간의 mapping은 일대다로 구성
    (하나의 pixel은 알려지지 않은 수의 region에 속할 수 있음)

Regions as queries – the length variant

  • 최종 아이디어는 DETR 시리즈에서 영감을 받았고, 'object queries'를 사용하여 object를 decoding 함
  • 간략히 말하면, 각 region은 먼저 encoding되어 1차원 embedding으로 pooling
  • 그런 다음 다양한 region embedding이 일련의 length axis를 따라 연결되어 'region query'를 형성
  • 마지막으로, 이러한 region query는 pixel encoder의 출력에서 region map을 decoding 함
  • 마지막 decoder block은 region query를 공간적으로 확장하는 역할을 담당

  • Standard attention layer는 출력을 생성하기 위해 value 위에 weighted sum을 계산 (위 그림의 왼쪽)
  • Query를 직접 모든 value에 추가하여 확장 (위 그림의 오른쪽)
  • 그 후에는 작은 MLP head가 추가되어 이러한 공간적으로 확장된 feature를 기반으로 region map을 예측
  • 이러한 변형은 region의 수 k에 대한 선형 복잡성을 완화시키고, 순열에 대한 원하는 특성을 유지하게 됨

Loss

  • L2 loss는 real-valued pixel 예측에 적합하지만, 기본적으로 이진 분류에 효과적인 cross-entropy loss을 binary-valued region에 대해 사용

3.2 R-MAE: REGIONS MEET MAE

  • 주의할 점은 다음과 같음
    (i) Pixel branch는 region branch로 전달되지만 그 반대는 그렇지 않음
    (ii) 마스크는 information leak을 방지하고 더 challenging pre-text task를 만드는 데 도움이 되도록 두 branch 사이에서 공유

  • 흥미로운 점은 위 그림에서 R-MAE를 사용하여 pre-train 된 ViT feature가 supervised 없이, 이미지로 계산 가능한 region map를 사용하여 학습될 때, instance-aware 능력이 더 강화된다는 것임
  • 특히, 이러한 ViT feature는 query를 기준으로 reconstruction(MAE (He et al., 2022)) 및 contrastive (MoCo v3 (Chen et al., 2021)) methods에 비해 더 많이 object에 집중하는 attention map을 보여줌
  • R-MAE로 pre-train 된 ViT feature는 attention map을 통해 그것의 localization capabilitie을 드러내며, 서로 다른 위치의 object에 집중적으로 초점을 맞춤

4. EXPERIMENTS

Source of regions

  • 기본적으로, Felzenswalb-Huttenlocher (FH) 알고리즘 (Felzenszwalb & Huttenlocher, 2004)으로부터 생성된 map를 사용
  • 이 알고리즘은 unsupervised learning을 통해 이미지에서 생성되며 빠르고 효율적이며 전체 이미지를 다루기 때문에 클래식한 region proposal 방법임
  • COCO 데이터 세트의 ground truth annotation인 panoptic region과 SAM 모델 (Kirillov et al., 2023)에서 생성된 region과 같은 다양한 소스에서 영역을 제거하기도 함

  • 위의 테이블에서 (a)에서는 이미지당 region의 수에 관한 RAE의 성능을 보여줌. RAE는 pre-training 중에 이미지 당 더 많은 region을 샘플링 할 때 개선됨
  • (b)와 (c)에서는 채널 변형이 아키텍처의 중간 블록에서 계산을 공유하기 때문에 효율적이지만, 성능은 뒤처지는 것으로 나타남. 이는 하나의 이미지 내에서 여러 region map의 순열 동치성을 학습하는 것이 어렵다는 것을 증명
  • (d)에서는 다양한 소스에서 생성된 region을 사용한 RAE의 성능을 비교:
    • FH region은 기본 설정으로, COCO의 panoptic region 및 SAM에서 생성된 region
    • Panoptic region은 semantic segmentation에서만 성능을 개선하는 반면, SAM의 region map은 기본 FH region에 비해 모든 task에서 RAE의 성능을 크게 향상
    • 놀랍게도, SAM region만 사용한 RAE는 MAE보다 성능이 우수하며, 계산 요구 사항이 적었음
  • (e)에서 R-MAE라는 전체 pre-training 파이프라인의 결과를 보여줌. 이 파이프라인은 RAE와 MAE를 통합하여 구성. 구체적으로, R-MAE에서는 MAE의pixel reconstruction과 masked region autoencoding을 함께 최적화 함

5. CONCLUSION

  • 간단하면서도 효과적인 접근 방식인 R-MAE를 통해 MAE(He et al., 2022)의 중요한 비전 개념인 "region"을 탐구
  • Quantitative and qualitative 결과를 통해, R-MAE가 실제로 더 'region-aware'이 높으며, downstream 성능을 일관되게 개선할 수 있음을 보임

Limitations

  • Region은 word와 유사한 점이 있지만(예: 이산적인 측면), region이 아직도 부족할 수 있는 word의 다른 측면도 있음(예: 충분한 의미론적 정보를 제공하는지 논란이 될 수 있음)
  • 따라서 이 연구는 여전히 NLP에서 대형 언어 모델에 대한 word와의 격차를 실제로 메우기 위한 첫 번째 단계임
  • 그러나 컴퓨터 비전에서 word의 시각적 동의어를 발견하는 데 있어서 탐구 가치가 있음
  • SAM(Kirillov et al., 2023)에서 나온 region은 R-MAE의 성능을 크게 향상시키지만, SAM 자체는 MAE에서 초기화되며, 계산 비용이 많이 들며, 사람이 학습에 참여해야 하는 대규모 학습이 필요
  • 다음 연구는 SAM region이 도움이 되는 진정한 이유를 찾고, 이 파이프라인의 복잡성을 최소화하는 것
profile
AI Research Engineer

0개의 댓글

관련 채용 정보