LangChain | 멀티모달 모델의 이미지 인식 기능 | Model

박성문·2024년 12월 31일

LangChain | 모델

목록 보기

1/11

여러 형태의 데이터 (텍스트, 이미지, 오디오, 비디오 등)를
통합적으로 처리할 수 있는 AI 모델이다.

텍스트와 이미지를 처리할 수 있는 GPT-4 Vision 모델을 사용한다.

이미지는 두 가지 방법으로 처리할 수 있다.

웹 이미지 URL로 처리하기

로컬 이미지 파일로 처리하기

MultiModal 클래스는 이미지와 텍스트를 함께 처리할 수 있는 기능을 제공한다.

여기서 MultiModal은 클래스 이름이고
multimodal_llm은 생성된 객체를 저장하는 변수이다.
llm은 앞서 설정한 GPT-4 모델을 부르기 쉽게 저장한 변수이다.

성문이