Transfer Learning(전이 학습) & Fine-tuning(미세 조정)

신민기·2025년 10월 16일

AI

목록 보기

13/17

Transfer Learning(전이 학습)

전이 학습이란 이미 많은 데이터로 학습된 모델을 가져와 다른 작업을 위해 사용하고자 하는 학습 데이터를 학습시켜 이용하는 방법으로 기존에 비슷한 도메인의 데이터를 학습한 모델이라면 현재 갖고있는 데이터가 다소 적더라도 좋은 성능을 보여줄 수 있고 학습 데이터가 부족한 상황에서 유용하다.

사용 이유

데이터 부족 문제 해결
- 전이 학습은 이미 대규모 데이터셋으로 훈련된 모델을 사용하여, 새로운 작업에 대한 데이터 요구량을 크게 줄일 수 있습니다.
학습 시간 단축
- 전이 학습은 이미 학습된 특징과 지식을 재사용함으로써, 새로운 모델을 처음부터 학습하는 데 필요한 시간을 크게 줄여줍니다.
성능 향상
- 전이 학습은 풍부한 데이터로 학습된 모델이 일반적으로 더 강력하다는 사실을 활용합니다.

전이 학습 순서

사전 훈련된 모델의 선택과 인스턴스화
첫 단계는 대규모 데이터셋(예: ImageNet)으로 사전 훈련된 모델을 선택하고 인스턴스화(클래스를 객체로)하는 것입니다. 이러한 모델들은 이미 광범위한 특징을 학습했기 때문에, 새로운 문제에 적용하기에 이상적입니다.

모델의 상위 층 동결
선택한 모델의 상위 층을 동결시킵니다. 이렇게 함으로써, 이미 학습된 특징들이 새로운 데이터로 인해 손상되는 것을 방지할 수 있습니다. 동결은 해당 층의 가중치가 학습 과정에서 업데이트되지 않도록 하는 것을 의미합니다.

새로운 출력 층의 추가
모델에 새로운 작업에 적합한 출력 층을 추가합니다. 예를 들어, 분류 작업의 경우, 새로운 클래스 수에 맞게 조정된 분류 층을 추가할 수 있습니다.

새로운 데이터셋으로의 훈련
추가된 새로운 층과 기존 모델의 일부 층을 새 데이터셋으로 훈련합니다. 이 과정에서 모델은 새로운 데이터에 특화된 특징을 학습합니다.

모델의 미세 조정
일단 새로운 층이 어느 정도 학습되면, 전체 모델의 동결을 해제하고 모델을 미세 조정할 수 있습니다. 미세 조정은 모델이 새 데이터에 더욱 잘 적응하도록 돕는 과정입니다. 이 단계에서는 학습률을 낮게 설정하여 사전 학습된 가중치를 세밀하게 조정합니다.

Fine-tuning(미세 조정)

전이 학습의 한 종류로서 특정 분야를 위해 이미 학습된 모델에 새로운 데이터 셋을 추가하여 학습하는 작업이다.

이러한 파인튜닝에는 여러 종류가 있다

Full Fine-tuning

Full Fine Tuning: 모든 모델 매개변수를 포함하여 사전 학습된 모델 전체를 파인튜닝하는 작업을 의미합니다. 이 방법에서는 사전 학습된 모델의 모든 레이어와 매개 변수가 업데이트되고 최적화되어 대상 작업의 요구 사항에 맞게 조정됩니다.
장점: 성능을 극대화합니다.
단점: 대용량 데이터 및 컴퓨팅 요구 사항으로 인해 시간이 많이 소요됩니다. 또한 catastrophic forgetting 문제로 인해 모델이 원래 학습한 내용을 잃어버릴 수 있습니다.
적용 사례: 최고의 정확도와 맞춤 설정이 필요한 미션 크리티컬 시스템에 적합합니다.

Parameter-Efficient Fine Tuning

Parameter-Efficient Fine Tuning: 전체 모델을 업데이트하는 대신, 일부 중요한 파라미터만 조정하는 방법이다. 대표적인 기법으로는 Low-Rank Adaptation(LoRA), Prefix-Tuning, 그리고 Adapters 등이 있다. 이 방법들은 필요한 계산 자원과 메모리를 크게 줄이면서도 모델의 성능을 유지할 수 있다.
장점: 가볍고 빠르며 비용 효율적이며 여러 환경에 배포하기 쉽습니다.
단점: 복잡한 작업에서는 성능이 저하될 수 있고 위험성이 높은 작업에서는 성능이 전체 파인 튜닝보다 떨어질 수 있기 때문에 안정적인 파인 튜닝 기법을 사용한다.
적용 사례: 신속한 프로토타입 제작, 리소스가 제한된 환경 또는 여러 도메인에 걸친 확장에 적합합니다.

RLHF (Reinforcement Learning from Human Feedback)

RLHF: 인간 피드백을 통한 강화학습이다. 사람이 만든 옳은 데이터를 ai가 고르면 보상을 주면서 AI를 훈련시켜, 안전하게 만드는 강화학습 방법

1) Supervised Fine-Tuning(SFT)
인간이 의도하는 정책을 학습시키기 위해 인간 Labeler(or trainer)가 선별한 적은 양의 샘플 데이터셋으로 Pre-trained LM을 Fine-Tuning함.
2) Reward Model (Mimic Human Preferences)
인간 Labeler는 1)에서 Fine-Tuning된 SFT 모델이 생성한 여러 답변 후보들 중, 인간 labeler 들이 무엇이 더 좋은 답변인지 랭킹을 매겨 점수화한 데이터셋을 수집함. 이 데이터셋을 이용하여 새로운 Reward Model을 학습함
3) PPO(Proximal Policy Optimization)를 이용한 SFT 모델 강화학습
SFT 모델에 여러 사용자들의 입력을 주고, Reward Model과 함께 상호 작용하면서 강화학습을 시킴.

장점: 모델 동작을 인간의 가치관에 맞춰 조정하고 출력 품질을 향상합니다.
단점: 설정이 복잡할 수 있으며, 숙련된 어노테이션 작성자와 컴퓨팅이 필요합니다.
적용 사례: 민감한 영역에서 안전 및 사용자 경험을 고려하여 생성형 모델을 조정하는 경우에 적합합니다.

출처:
https://kr.appen.com/blog/fine-tuning/

https://wikidocs.net/120208

https://www.databricks.com/kr/glossary/fine-tuning

https://hi-ai0913.tistory.com/32

https://moon-walker.medium.com/chatgpt%EC%97%90-%EC%A0%81%EC%9A%A9%EB%90%9C-rlhf-%EC%9D%B8%EA%B0%84-%ED%94%BC%EB%93%9C%EB%B0%B1-%EA%B8%B0%EB%B0%98-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%9D%98-%EC%9B%90%EB%A6%AC-eb456c1b0a4a