pluto_0905.log
로그인
pluto_0905.log
로그인
[DL] 전이 학습이란?
myeongwang
·
2023년 12월 26일
팔로우
0
DL
0
Pretrained Model
Pretrained model은 대규모 데이터셋을 기반으로 학습된 모델로, 학습한 task에 대한 일반적인 지식을 갖고 있음
최근 GPT, PALM, Stable-Diffusion 등 대규모 데이터로 학습된 pretrained model이 등장하면서 중요성이 대두되고 있음
전이 학습이란?
사전 학습된 모델 (pretrained model)의 지식을 다른 task에 활용하는 것
모델이 이미 학습한 일반적인 지식을 기반으로 더 빠르고 효과적이게 새로운 지식을 학습할 수 있음
Fine Tuning이란?
전이 학습의 한 방법
Pretrained model을 그대로 혹은 layers를 추가한 후 새로운 작업에 맞는 데이터로 모델을 추가로 더 훈련시키는 방법
Domain Adaptation이란?
전이 학습의 한 방법
A 라는 도메인에서 학습한 모델을 B라는 도메인으로 전이하여 도메인 간의 차이를 극복하는 것이 목적
도메인이란 데이터가 속하는 분포 (e.g. 도메인 A : 실제 사진, 도메인 B : 애니메이션) General classification
유사한 다른 방법들
Multi-task learning : 하나의 모델을 사용하여 여러 개의 관련된 작업을 동시에 학습하면서 공통으로 사용되는 특징을 공유하는 학습 방식
Zero-shot learning : 기존에 학습되지 않은 새로운 클래스나 작업에 대해 예측을 수행하는 기술 (e.g. CLIP)
One/few-shot learning : 하나 또는 몇 개의 훈련 예시를 기반으로 결과를 예측하는 학습 방식
전이 학습 전략
도메인이 비슷할 때, dataset 크기에 따른 전략
비교적 작을 때 : 마지막 classifier만 추가 학습 (나머지 freeze)
∵ 데이터셋의 크기가 비교적 작기 때문에, 기존의 학습한 일반적인 지식을 전달하는데 집중
비교적 클 때 : classifier 뿐만 아니라, 다른 일부 layers도 추가 학습
∵ 기존의 학습한 일반적인 지식을 유지하며, 몇 개의 layer만을 추가 학습시켜 specific한 새로운 데이터셋에 대한 지식을 학습
도메인이 매우 다를 때, dataset 크기에 따른 전략
꽤 클 때 : 꽤 많은 layers를 학습해야 함.
∵ 도메인이 매우 다를 때, pretrained model이 이미 가지고 있는 지식을 꽤 많이 수정해야 하기 때문
매우 작을 때: 학습 불가(도메인도 다르고, 데이터도 적다면 모델에서 지식 추출 어렵)
Learning rate 전략
Pretrained model의 일반적인 지식을 크게 업데이트 하지 않기 위해 작은 learning rate으로 학습
※ 단, 마지막 FC Layer 만 업데이트 하는 경우 learning rate에 성능이 크게 영향을 받지 않음
Pretrained Model Community
Timm for CV
Hugging Face for NLP,CV ...
myeongwang
Real Cryptocurrency Trader & AI Engineer LV.0
팔로우
이전 포스트
[DL] 기본 모델 구조: CNN
다음 포스트
[ML] 결측치 및 이상치 처리
0개의 댓글
댓글 작성