Representation은 같은 대상이라도 상황에 따라, 관점에 따라 의미가 바뀌기도 한다.
같은 이미지의 고양이라도 표현은 모두 다르다.
Representation이란 데이터를 모델이 어떤 관점에 따라 이해하고 처리할 수 있는 형태로 변환된 것
👉 데이터를 어떤 관점에서 보고자 하는지에 따라 데이터에 기대할 Representation 이 결정될 수 있다.
같은 이미지라도 어떤 개체가 가질 수 있는 의미는 매우 다양하다.
데이터로부터 유의미한 Representation을 자동으로 학습할 수 있도록
일반적인 Supervised Learning 도 자체적으로 Representation 을 만들어 낸다.
👉 위 이미지에서 처럼 대규모 학습데이터 ImageNet dataset에서 학습한 Pre-trained 모델을 다른 Medical dataset에서 그대로 적용하여 predict한다.
Self-supervised learning이란, Label 이 없는 데이터에서 Representation 학습
Contrastive learning
Multimodal learninig이란, 여러가지 modality 에서 정보를 결합.
-> 어떤 Image가 의미하는 Image의 특성으로도 확인할 수 있는 정보를 이를 Representation 할 수 있는 다른 모달로부터도 얻을 수 있다.
CLIP이라는 모델인데, 시각적 및 언어적 표현을 jointly 하게 학습하며 이미지와 해당 텍스트 정렬.
이미지와 text의 representation 의 통계적 언어모델까지도 학습.
example)
-> 이미지를 주었을때 output으로 나오게 함.
Foundation Model is any model that is trained on brad data that can be adapted to a wide range of downstream tasks
-> 엄청 다양하고 massive 데이터로 학습을 하고, 여러가지로 표현할 수 있는 모델.(엄청 범용적인 모델.)
Foundation model 의 학습 패러다임
Multimodal Learning with Transformers: A Survey
https://arxiv.org/abs/2206.06488
Self-supervised Learning: Generative or Contrastive
https://arxiv.org/abs/2006.08218