transfer learning
- 하나의 domain이나 task에서 사전 학습된 모델을 다른 domain에 적용하는 학습 방법
- ex) ImageNet에서 훈련된 모델을 의료 영상, 위성 사진 등에 적용
- 적은 데이터로도 더 빠른 학습 및 성능 향상
- source task에서 훈련 후 target task에서 가중치를 고정하여 학습시키는 방법과, target task에서 가중치 고정 없이 전체 모델을 fine-tuning하는 방법, 일부 layer만 가중치 고정 후 학습하는 방법이 있다.
- 사전 학습을 하면 최종 정확도가 비슷해도 수렴이 더 빠르다.
- fine-grained task의 경우에는 transfer learning을 이용하는 것보다 학습 데이터가 많은 것이 더 유의미한 향상이 나타난다.
self-supervised learning
- 모델이 데이터 자체로부터 label을 생성하고 그 label을 바탕으로 학습하는 방법
- 데이터에 label을 붙이는 과정은 시간과 비용이 많이 드는데, 이러한 과정이 없이 학습하기 때문에 효율적⋅경제적임
- 더 일반화된 representation을 학습하여 성능을 높일 수 있음
- transfer learning을 위한 사전 학습으로 사용된다.
- pretext 작업을 통해 학습한다.
- colorization : 흑백 이미지를 채색
- inpainting : 비어 있는 부분을 그려냄
- jigsaw puzzle solving : 이미지를 조각내서 다시 원래 이미지로 재구성
- rotation prediction : 회전시킨 이미지가 원본에 비해 얼마의 각도로 회전했는지 추정
- contrastive learning : positive pair를 모으고, negative pair는 밀어내는 식으로 contrastive loss를 계산하여 학습하는 방법이다. positive pair는 같은 이미지의 augmented version 혹은 비슷한 데이터이고, negative image는 다른 종류의 이미지 혹은 그 augmented version이다.
- 이외에도 anomaly detection (이상 탐지), Nearest neighbor retrieval, 대규모 unlabeled data set 분석 등에 사용할 수 있다.
multimodal learning
- 하나의 데이터를 다르게 representation할 수 있는 다른 modal(vision, audio, text 등)로부터 얻는 정보를 결합하여 학습하는 방식
- vision-language model
- ex) CLIP, ALIGN, FLAVA
- zero-shot classification, image-text retrieval, visual question answering, image captioning 등에 활용
foundation model
- A foundation model is any model that is trained on broad data that can be adopted to a wide range of downstream tasks.
- 대규모 데이터를 기반으로 pre-train된 모델
- 다양한 작업에 대해 일반적인 representation을 학습하고 이를 바탕으로 여러 분야에 걸쳐 transfer learning을 할 수 있다.
- ex) GPT, BERT, CLIP, DALL⋅E, SAM, Whisper, Flamingo