[논문 리뷰] Describe Anything Model

Hitdahit·2025년 5월 6일

논문리뷰

목록 보기

2/11

모델 Input: { 전체 이미지, User Prompt -> SAM2 -> Local Mask}
- 프롬프트는 항상 Visual Prompt이며, 항상 마스크로 변환되어 사용됨
모델 Output: Masking 된 영역에 대한 Captioning
Architecture에서 주목할 부분:
- Focal Prompt
  1. Mask → Bbox 변환
  - Fit하게 잡은 뒤 마진 값 $\alpha$ 를 가로, 세로에 곱함
  1. Box 가로 세로 크기 조정
  - Max(Bbox’s Width or Height x $\alpha$ , 48)
  1. 크기 조정한 Bbox로 이미지, 마스크를 각각 crop.
- Handling Localization Inputs (Embedder)
  - 전체 영상 임베더와 크롭 영상 임베더를 따로 두고 학습시킴.
  - 단순하게 크롭시키는 것은 성능하락 한다고 함
- Global Visual Feature Cross Attention
  - f_R 의 모든 레이어에 cross attention을 삽입
  - General, Region간의 Cross Attention임.
  - 대신 아래와 같이 $\gamma$ , $\beta$ 라는 learnable param을 두고 FFN 전에 사용.
    - 초기 값은 0으로 둠
      Fine tuning 시에 smooth adapt됨
      또 상대적으로 적은 train 셋으로 학습 가능해짐
- Video일 땐? -> 매 프레임마다 feature 추출 후 concat, LLM으로 쏨
- Semi supervised로 학습됨
  - Fine level의 데이터로 우선 학습
  - Web 이미지 수집 -> 우선 학습된 DAM으로 infer
  - Clip으로 생성된 caption confidence filtering 함.