Mistral 7B 모델을 베이스로 해서 복사해서 2개의 모델 만듬
각 위 8개, 아래 8개 layer 제거하고 합쳐서 48 layer 만듬
그러면 10.7B지만 성능이 떨어져서 다시 pretraing -> instruction (QA 데이터) -> alignment (DPO)
DUS도 동일한 아이디어
두 벡터 사이를 부드럽게 보간
여러 모델을 단일 모델로 병합
리더보드에선 SLERP가 가장 높았음
방법론
1. Linear: 가중치를 평균
2. slerp: 데이터 포인트를 구면상의 점으로 간주해서 smooth한 곡선을 그리는 방식으로 없는 값 채움, 모델이 2개일 때만
3. task_arithmetic: 다른 모델의 가중치에서 기본 모델의 가중치를 빼 작업 벡터(편차)를 생성 후, 선형적으로 병합하고 기본 모델에 다시 더함, 모델이 여러 개일 때
4. ties
5. dare: 작업 벡터 희소화하고 새로운 재조정 기법 적용. task_arithmetic과 ties 붙일 수 있음
6. passthrough: 레이어 병합, 하나의 입력 모델만 있을 경우 유용
student, teacher
Distillkit
feaures
Logit-based: 같은 아키텍처여야 함
hard target(실제 label), soft target(teacher logit). soft target loss는 Kullback-Leibler (KL) divergence. student가 teacher의 output 분포를 따라하게. student 모델의 generalization 과 efficiency를 높임
Hidden States-based: 다른 아키텍처여도 됨
student 모델의 중간 layer representation을 aligning해서 지식 transfer
DPO와 GPT는 나중에 나옴
중요한 파라미터는 살리고 아닌건 가지치기하는 경량화
네이버 클라우드 + EleutherAI
인문학, 과학, 기술, 공학, 수학 등 총 45개 주제
다지선형 선택 문제
한국어의 언어적, 문화적 특징을 반영
LLM은 마케팅, 컴퓨터 과학, 정보 기술, 통신 및 무선 기술 분야에선 good
한국사, 수학, 특허, 세무, 형법 같은 특정 문화적 또는 지역적 지식에선 bad
인위적으로 생성된 데이터
nvidia에서 합성 데이터 생성하는 nemotron-4 340B 출시
prompt 형태 다양화하는 것이 중요(쓰기, Q&A, 주제 다양화, 지시문 다양화:json, 문단, yes or no answers)
CoT는 100B이상의 큰 모델들에게 효과적
LLM기반 합성 데이터 연구
데이터 증강이 일반적
초기 지시문
{
"Skill": "Writting",
"Difficulty": 3,
"Instruction": "As an experienced writer, (후략)"
}
LLM을 사용해 지시문 진화