[UNI-D Datathon] Vision-Language Grounding

chelseey·2025년 11월 10일

질의(텍스트)와 각 박스(시각적 영역) 간의 의미적 연관성을 평가

Matching 단계

  1. 질의(텍스트)를 임베딩
    : 질의를 텍스트 인코더(BERT, CLIP 텍스트 인코더 등)로 벡터로 변환

  2. 각 박스(이미지+주변 텍스트)를 임베딩
    : 각 박스 이미지를 비전 인코더(CNN, ViT 등)로 임베딩
    필요시 해당 박스 주변/내의 텍스트도 임베딩

  3. 코사인 유사도 계산
    : 질의 임베딩과 각 박스 임베딩 간 코사인 유사도를 계산해,
    의미적으로 가장 가까운 박스를 선택

박스 이미지 임베딩

  • DLA나 Layout Analyzer가 준 bbox 영역을 잘라서 crop 이미지 생성
  • crop 이미지를 비전 인코더에 넣어 벡터로 변환

Vision Encoder 모델

  • CLIP-ViT
  • CLIP-ResNet
  • Google ViT

0개의 댓글