














(과거의 행동 이력, 현재 상태, 목표)를 입력(prompt)으로 받아, (다음에 해야 할 행동)을 예측하도록 모델을 학습시킵니다. 이는 본질적으로 다음에 올 단어를 예측하는 것과 같아요.






에이전트가 텍스트뿐만 아니라 스크린샷과 같은 시각 정보를 이해하고 행동할 수 있게 하는 시각 언어 모델(Vision Language Models, VLM) 기반의 접근 방식도 활발히 연구되고 있습니다.
LAVA (Language And Vision Assistant): 이미지 인코더(CLIP)와 텍스트 디코더(LLaMA)를 결합하여, 이미지에 대한 질문에 자연어 답변을 생성하도록 훈련된 모델입니다.
Pix2Struct: 웹페이지 스크린샷의 일부를 가리고, 모델이 그 부분에 해당하는 HTML 코드를 생성하도록 학습시키는 새로운 사전 훈련 방식을 사용합니다. 이를 통해 모델은 시각적 레이아웃과 코드 구조 간의 관계를 더 깊이 이해하게 됩니다.