








적응 단계 (Linear Probe): 사전 훈련된 이미지 인코더 위에 선형 레이어를 추가하여 이미지 분류, 객체 감지, 또는 시맨틱 분할 등 새로운 태스크에 적응시킬 수 있습니다.
제로샷 일반화 (Out-of-the-Box Use): 재훈련 없이 CLIP 모델을 바로 사용하기 위한 방법입니다.


프레이즈 사용의 중요성:
- 단일 단어 대신 프레이즈 (예: "a photo of a plane")를 사용하면 더 좋은 벡터를 얻을 수 있으며, 이는 ImageNet에서 약 1.3%의 성능 향상을 가져왔습니다.
- 여러 프레이즈(예: "a photo of a dog", "a drawing of a dog")를 사용한 후, 각 카테고리의 평균 벡터를 계산하여 분류에 사용하면 더욱 효과적입니다.





강력한 일반화 성능: CLIP은 ImageNet으로 훈련된 모델보다 훨씬 뛰어난 일반화 능력을 보여줍니다.



일반화 이유:


CLIP은 자연 이미지 외에도 스케치 및 적대적 데이터셋에서도 견고한 성능을 보여주며, 많은 사람들은 CLIP을 이미지용 최초의 파운데이션 모델로 간주합니다.





























localize_things, localize_faces)을 포함하며, 그 결과를 결합하여 최종 답변을 도출합니다.


