질의(텍스트)와 각 박스(시각적 영역) 간의 의미적 연관성을 평가
질의(텍스트)를 임베딩
: 질의를 텍스트 인코더(BERT, CLIP 텍스트 인코더 등)로 벡터로 변환
각 박스(이미지+주변 텍스트)를 임베딩
: 각 박스 이미지를 비전 인코더(CNN, ViT 등)로 임베딩
필요시 해당 박스 주변/내의 텍스트도 임베딩
코사인 유사도 계산
: 질의 임베딩과 각 박스 임베딩 간 코사인 유사도를 계산해,
의미적으로 가장 가까운 박스를 선택
Vision Encoder 모델