VLM의 기본 원리

FSA·2024년 11월 27일
0

VLM

목록 보기
3/4

0.1. Vision Language Models are Explained

  • 왼쪽이 사전 학습 단계. 많은 데이터를 이용해서 학습시킨다. 이 단계에서의 데이터를 어떻게 모으나면
    • "image-text" pair를 인터넷에서 모은 후,
    • "text"만을 이용해서, GPT를 활용해 Question 을 여러개 생성한다.
    • 예를 들면: text가 "앉아있는 고양이" 였으면, GPT를 활용해 아래의 질문들을 이용해 만든다.
      • Q: 사진에 대해 설명해줘.
      • Q: 사진에 뭐가 있니?
    • LLAVA 논문의 저자들은 이미지와 캡션 데이터셋을 GPT-4에 입력하여 캡션 및 이미지와 관련된 질문을 생성했다.
  • 주요 트릭은 이미지와 텍스트 표현을 통합하고 이를 텍스트 디코더에 입력하여 생성하는 것
  • 가장 흔하고 뛰어난 모델은 종종
    • 이미지 인코더, 이미지와 텍스트 표현을 정렬하는 임베딩 프로젝터(대개 밀집 신경망),
    • 텍스트 디코더로 구성되며, 이 순서대로 연결된다.
  • 학습 방식에 있어서는, 다양한 모델이 서로 다른 접근 방식을 사용하고 있다.

  • 대부분의 경우 비전-언어 모델을 처음부터 학습시킬 필요는 없다.
    • 기존 모델 중 하나를 사용하거나,
    • 자신의 용도에 맞게 미세 조정하면 된다.
profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글