FSA.log
로그인
FSA.log
로그인
VLM의 기본 원리
FSA
·
2024년 11월 27일
팔로우
0
0
VLM
목록 보기
3/4
0.1. Vision Language Models are Explained
왼쪽이 사전 학습 단계. 많은 데이터를 이용해서 학습시킨다. 이 단계에서의 데이터를 어떻게 모으나면
"image-text" pair를 인터넷에서 모은 후,
"text"만을 이용해서, GPT를 활용해 Question 을 여러개 생성한다.
예를 들면: text가 "앉아있는 고양이" 였으면, GPT를 활용해 아래의 질문들을 이용해 만든다.
Q: 사진에 대해 설명해줘.
Q: 사진에 뭐가 있니?
LLAVA 논문의
저자들은 이미지와 캡션 데이터셋을 GPT-4에 입력하여 캡션 및 이미지와 관련된 질문을 생성했다.
주요 트릭은
이미지와 텍스트 표현을 통합
하고 이를 텍스트 디코더에 입력하여 생성하는 것
가장 흔하고 뛰어난 모델은 종종
이미지 인코더, 이미지와 텍스트 표현을 정렬하는 임베딩 프로젝터(대개 밀집 신경망),
텍스트 디코더로 구성되며, 이 순서대로 연결된다.
학습 방식에 있어서는, 다양한 모델이 서로 다른 접근 방식을 사용하고 있다.
대부분의 경우 비전-언어 모델을 처음부터 학습시킬 필요는 없다.
기존 모델 중 하나를 사용하거나,
자신의 용도에 맞게 미세 조정하면 된다.
FSA
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것
팔로우
이전 포스트
Improved Baselines with Visual Instruction Tuning
다음 포스트
[용어 정의] VideoChat: Chat-Centric Video Understanding
0개의 댓글
댓글 작성