다양한 모델 학습 방법

J. Hwang·2024년 9월 15일

하나의 domain이나 task에서 사전 학습된 모델을 다른 domain에 적용하는 학습 방법
ex) ImageNet에서 훈련된 모델을 의료 영상, 위성 사진 등에 적용
적은 데이터로도 더 빠른 학습 및 성능 향상
source task에서 훈련 후 target task에서 가중치를 고정하여 학습시키는 방법과, target task에서 가중치 고정 없이 전체 모델을 fine-tuning하는 방법, 일부 layer만 가중치 고정 후 학습하는 방법이 있다.
사전 학습을 하면 최종 정확도가 비슷해도 수렴이 더 빠르다.
fine-grained task의 경우에는 transfer learning을 이용하는 것보다 학습 데이터가 많은 것이 더 유의미한 향상이 나타난다.

모델이 데이터 자체로부터 label을 생성하고 그 label을 바탕으로 학습하는 방법
데이터에 label을 붙이는 과정은 시간과 비용이 많이 드는데, 이러한 과정이 없이 학습하기 때문에 효율적 $\cdot$ 경제적임
더 일반화된 representation을 학습하여 성능을 높일 수 있음
transfer learning을 위한 사전 학습으로 사용된다.
pretext 작업을 통해 학습한다.
- colorization : 흑백 이미지를 채색
- inpainting : 비어 있는 부분을 그려냄
- jigsaw puzzle solving : 이미지를 조각내서 다시 원래 이미지로 재구성
- rotation prediction : 회전시킨 이미지가 원본에 비해 얼마의 각도로 회전했는지 추정
contrastive learning : positive pair를 모으고, negative pair는 밀어내는 식으로 contrastive loss를 계산하여 학습하는 방법이다. positive pair는 같은 이미지의 augmented version 혹은 비슷한 데이터이고, negative image는 다른 종류의 이미지 혹은 그 augmented version이다.
이외에도 anomaly detection (이상 탐지), Nearest neighbor retrieval, 대규모 unlabeled data set 분석 등에 사용할 수 있다.

하나의 데이터를 다르게 representation할 수 있는 다른 modal(vision, audio, text 등)로부터 얻는 정보를 결합하여 학습하는 방식
vision-language model
- ex) CLIP, ALIGN, FLAVA
- zero-shot classification, image-text retrieval, visual question answering, image captioning 등에 활용

A foundation model is any model that is trained on broad data that can be adopted to a wide range of downstream tasks.
대규모 데이터를 기반으로 pre-train된 모델
다양한 작업에 대해 일반적인 representation을 학습하고 이를 바탕으로 여러 분야에 걸쳐 transfer learning을 할 수 있다.
ex) GPT, BERT, CLIP, DALL $\cdot$ E, SAM, Whisper, Flamingo

Let it code