Image as Set of Points (ICLR, 2023)

Jiyong Moon·2023년 3월 21일

01.Recognition

목록 보기
1/1

논문링크

연구목적

  • 최근의 vision models의 발전은 CNN, ViT 혹은 CNN + ViT 구조에 집중되어 있음
  • 하지만, 이외에도 순수 MLP 기반의 모델이나 graph 기반의 모델도 제안되고 있으며 새로운 insight를 제공하고 있음
  • 따라서, 본 논문에서도 visual representation을 학습하기 위해 매우 클래식한 알고리즘인 clustering에 집중하고자 함
  • 즉, 하나의 이미지를 여러 data points의 집합으로 보고 모든 points가 적절한 cluster로 그룹화함 (Context Cluster, CoC)
    • 하나의 픽셀을 5차원의 data point로 생각: RGB값 + 위치값(x,y)
    • 다시 말해 이미지를 point clouds의 집합으로 변환하여 point cloud 분야에서 제안된 방법을 적용하여 visual representation을 학습함
  • CoC는 CNN, ViT와 차별화되지만 이들의 좋은 특징들을 일부 공유함
  • CoC는 RGBD images, point clouds와 같은 다른 data domain에 잘 일반화될 수 있으며 각 레이어마다 clustering 결과를 확인할 수 있으므로 레이어 별로 어떤 특징들을 학습하고 있는지 쉽게 확인할 수 있음

접근법

  • 입력 이미지의 모든 픽셀을 RGB값, position값의 5차원 데이터로 구성
  • 모델의 아키텍처는 여러 context cluster blocks을 stack하여 구성
  • Points가 주어지면 연산량을 줄이기 위해 points를 수를 줄임
    • 인접한 k개의 points를 concat하여 linear projection함
  • 최종 분류를 위해 last block의 모든 points를 평균하여 FC layer에 입력함
  • Context cluster blocks에서는 context clustering을 수행
    • c개의 (고정된)cluster centers를 정의: SuperPixel 방법인 SLIC을 통해 공간상에 c개의 중심을 균등하게 배치하고 k개의 인접 points를 평균하여 center feature 설정
    • Projected된 points와 cluster centers와의 cosine similarity를 계산하여 모든 points를 가장 유사한 center로 배정함
  • 이후 한 cluster의 모든 points를 center point와의 유사도를 기준으로 집계함
  • 집계된 feature를 기준으로 각 points를 업데이트함

실험결과

  • 제안하는 CoCs를 mage classification, point cloud classification, object detection, instance segmentation, semantic segmentation tasks에서 검증함
  • SOTA 성능을 목표로 하지 않았지만 몇몇 벤치마크에서 CNN, ViT와 매우 비슷하거나 능가하는 성능을 보여줌

의견

  • /

0개의 댓글