FSA.log
로그인
FSA.log
로그인
VLM의 기본 원리
FSA
·
2024년 11월 27일
팔로우
0
0
VLM
목록 보기
3/5
Vision Language Models are Explained
주요 트릭은
이미지와 텍스트 표현을 통합
하고 이를 텍스트 디코더에 입력하여 생성하는 것
가장 흔하고 뛰어난 모델은 종종
이미지 인코더, 이미지와 텍스트 표현을 정렬하는 임베딩 프로젝터(대개 밀집 신경망),
텍스트 디코더로 구성되며, 이 순서대로 연결된다.
학습 방식에 있어서는, 다양한 모델이 서로 다른 접근 방식을 사용하고 있다.
대부분의 경우 비전-언어 모델을 처음부터 학습시킬 필요는 없다.
기존 모델 중 하나를 사용하거나,
자신의 용도에 맞게 미세 조정하면 된다.
왼쪽 단계
multimodal projector만 학습시킨다.
왼쪽이 사전 학습 단계. 많은 데이터를 이용해서 학습시킨다. 이 단계에서의 데이터를 어떻게 모으나면
"image-text" pair를 인터넷에서 모은 후,
"text"만을 이용해서, GPT를 활용해 Question 을 여러개 생성한다. (GPT로 안만들어도 되는 질문임)
예를 들면: text가 "앉아있는 고양이" 였으면, GPT를 활용해 아래의 질문들을 이용해 만든다.
Q: 사진에 대해 설명해줘.
Q: 사진에 뭐가 있니?
오른쪽 단계
multimodal projector와 text decoder도 학습시킨다.
VQA dataset을 이용해서 학습한다.
like llava
FSA
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것
팔로우
이전 포스트
[23, 10][1700] Improved Baselines with Visual Instruction Tuning
다음 포스트
[용어 정의] VideoChat: Chat-Centric Video Understanding
0개의 댓글
댓글 작성
관련 채용 정보