다양한 모델 학습 방법

J. Hwang·2024년 9월 15일
0

transfer learning

  • 하나의 domain이나 task에서 사전 학습된 모델을 다른 domain에 적용하는 학습 방법
  • ex) ImageNet에서 훈련된 모델을 의료 영상, 위성 사진 등에 적용
  • 적은 데이터로도 더 빠른 학습 및 성능 향상
  • source task에서 훈련 후 target task에서 가중치를 고정하여 학습시키는 방법과, target task에서 가중치 고정 없이 전체 모델을 fine-tuning하는 방법, 일부 layer만 가중치 고정 후 학습하는 방법이 있다.
  • 사전 학습을 하면 최종 정확도가 비슷해도 수렴이 더 빠르다.
  • fine-grained task의 경우에는 transfer learning을 이용하는 것보다 학습 데이터가 많은 것이 더 유의미한 향상이 나타난다.

self-supervised learning

  • 모델이 데이터 자체로부터 label을 생성하고 그 label을 바탕으로 학습하는 방법
  • 데이터에 label을 붙이는 과정은 시간과 비용이 많이 드는데, 이러한 과정이 없이 학습하기 때문에 효율적\cdot경제적임
  • 더 일반화된 representation을 학습하여 성능을 높일 수 있음
  • transfer learning을 위한 사전 학습으로 사용된다.
  • pretext 작업을 통해 학습한다.
    • colorization : 흑백 이미지를 채색
    • inpainting : 비어 있는 부분을 그려냄
    • jigsaw puzzle solving : 이미지를 조각내서 다시 원래 이미지로 재구성
    • rotation prediction : 회전시킨 이미지가 원본에 비해 얼마의 각도로 회전했는지 추정
  • contrastive learning : positive pair를 모으고, negative pair는 밀어내는 식으로 contrastive loss를 계산하여 학습하는 방법이다. positive pair는 같은 이미지의 augmented version 혹은 비슷한 데이터이고, negative image는 다른 종류의 이미지 혹은 그 augmented version이다.
  • 이외에도 anomaly detection (이상 탐지), Nearest neighbor retrieval, 대규모 unlabeled data set 분석 등에 사용할 수 있다.

multimodal learning

  • 하나의 데이터를 다르게 representation할 수 있는 다른 modal(vision, audio, text 등)로부터 얻는 정보를 결합하여 학습하는 방식
  • vision-language model
    • ex) CLIP, ALIGN, FLAVA
    • zero-shot classification, image-text retrieval, visual question answering, image captioning 등에 활용

foundation model

  • A foundation model is any model that is trained on broad data that can be adopted to a wide range of downstream tasks.
  • 대규모 데이터를 기반으로 pre-train된 모델
  • 다양한 작업에 대해 일반적인 representation을 학습하고 이를 바탕으로 여러 분야에 걸쳐 transfer learning을 할 수 있다.
  • ex) GPT, BERT, CLIP, DALL\cdotE, SAM, Whisper, Flamingo
profile
Let it code

0개의 댓글