이 방법은 컴퓨터가 이미지와 그 이미지에 대한 설명(텍스트)을 바탕으로 학습하는 거예요. 예를 들어, 강아지 사진과 "이것은 강아지입니다"라는 문장을 같이 학습하는 것이죠.
인터넷에서 수집한 4억 개의 이미지와 텍스트 쌍을 이용해 이 방식으로 모델을 훈련
시켰어요. 글자를 읽거나, 비디오에서 행동을 인식하는 등의 작업
이에요.가장 흥미로운 점은, 이 모델이 새로운 작업에도 잘 적용된다는 거예요. 기존의 모델들은 새로운 작업에 사용하기 위해서는 그 작업에 맞게 다시 훈련을 해야 했지만, 이 모델은 그럴 필요가 없어요. 새로운 개념이나 사물에 대해서도 이미 배운 지식을 바탕으로 인식할 수 있기 때문이죠.
이 모델의 코드와 훈련된 가중치(모델이 학습한 정보)를 공개
했어요.