[UNI-D Datathon] Vision-Language Grounding

chelseey·2025년 11월 10일

질의(텍스트)와 각 박스(시각적 영역) 간의 의미적 연관성을 평가

Matching 단계

질의(텍스트)를 임베딩
: 질의를 텍스트 인코더(BERT, CLIP 텍스트 인코더 등)로 벡터로 변환
각 박스(이미지+주변 텍스트)를 임베딩
: 각 박스 이미지를 비전 인코더(CNN, ViT 등)로 임베딩
필요시 해당 박스 주변/내의 텍스트도 임베딩
코사인 유사도 계산
: 질의 임베딩과 각 박스 임베딩 간 코사인 유사도를 계산해,
의미적으로 가장 가까운 박스를 선택

박스 이미지 임베딩

DLA나 Layout Analyzer가 준 bbox 영역을 잘라서 crop 이미지 생성
crop 이미지를 비전 인코더에 넣어 벡터로 변환

Vision Encoder 모델

CLIP-ViT
CLIP-ResNet
Google ViT

이전 포스트

[UNI-D Datathon] Document Layout Analysis

다음 포스트

자율주행 구현

0개의 댓글