진화론적 최적화를 도입한 Sakana.ai의 모델 머징 방법론

jihyelee·2024년 4월 2일

up-to-date-ai

목록 보기

3/13

모델 머징 (model merging; 모델 합치기)

여러 개의 사전학습된 모델의 강점을 활용하는 방식
각기 다른 특정 태스크에 대해 학습한 모델들을 결합함으로써, 동시에 여러 태스크를 처리할 수 있는 통합적 모델을 만들고자 함
모델 머징 방법론
- Model Soup
  - 동일한 초기 모델로부터 파인튜닝된 여러 모델의 가중치를 평균
  - 거대한 이미지 처리 혹은 이미지 분류 모델에 대해 잘 작동
- Task Arithmetic
  - 파인튜닝된 모델의 가중치에서 사전학습 모델의 가중치를 뺌
  - 가중치를 활용하는 방식은 파라미터 사이의 간섭을 일으켜 성능 하락 야기 가능
- TIES-Merging
  - 기존 머징 방식의 정보 손실을 줄이고자 함
  - 파라미터의 변화를 최소한으로 리셋, Sign Conflict 해결, 오직 얼라인되는 파라미터만 합침
- DARE
  - 파인튜닝된 모델과 기존 모델 사이의 작은 차이는 0으로 만들고 큰 차이는 더욱 크게 만듦
모델 머징 툴킷
- Mergekit
  - 간단한 머징 방식뿐만 아니라 위에서 언급한 방법론 또한 구현 가능
  - 가중치를 합치는 방법이 아니라 Frankenmerging (다른 레이어를 쌓는 방식) 또한 지원

진화론적 최적 신경망 구조 탐색 (Evolutionary Neural Architecture Search)

파라미터 공간(parameter space)에서의 머징

각 레이어에서 파라미터를 혼합해 새로운 가중치를 만들어내는 방식
- 이 논문에서 레이어란, 인풋/아웃풋 임베딩 레이어 혹은 트랜스포머 블록을 의미
TIES-Merging과 DARE에 기반, 태스크 벡터 분석을 활용
선별한 태스크에 대해 CMA-ES와 같은 진화적 알고리즘을 사용해 최적화 진행

데이터 흐름 공간(data flow space)에서의 머징

각기 다른 레이어를 쌓아 새로운 레이어 조합을 만들어냄
- 각 레이어 내의 가중치는 유지, 토큰이 흐르는 추론 경로를 최적화
탐색 공간을 줄이기 위해 모든 레이어를 순차적으로 놓고 레이어들을 포함 혹은 제외
- 모델 i의 모든 레이어를 나열하고 그 이후에 모델 i+1의 레이어를 나열하는 식
- 레이어를 반복적으로 위치시키거나(repetitive) 복잡하게 배열하는 것이(permuted) 오히려 성능에 부정적이라는 사전 실험을 통해 이와 같이 탐색 공간을 줄임
- 레이어의 포함, 제외는 표시자 배열(indicator array)의 인덱스를 바탕으로 결정
  - 표시자 배열은 진화론적 탐색에 의해 최적화됨
행렬 W를 활용해 인풋을 적절히 스케일링하는 것이 경험적으로 비추어보았을 때 성능 하락 문제를 경감시킴
- 행렬 W는 순방향 신경망(feed-forward)으로 표현
- 행렬 W 또한 진화론적 탐색에 의해 최적화됨