EXAONE 3.5 Technical Report 핵심내용 정리

jihyelee·2024년 12월 27일

up-to-date-ai

목록 보기

12/13

EXAONE 3.5: Series of Large Language Models for Real-world Use Cases (Report link, HuggingFace Model Hub, Demo)

모델 configuration 관련
- SwiGLU (관련 논문)
  - Swish의 부드러운 비선형성과 GLU의 게이팅 특성을 결합한 활성함수
  - LLaMA와 같은 대규모 언어모델에서 우수한 성능 입증
- GQA (Grouped Query Attention)
  - 유사한 attention head를 묶어 메모리 로드를 줄이면서도 텍스트 내의 복잡한 관계성이나 패턴을 유지하는 방식 (참고 링크)
- RoPE theta
  - RoPE란, Rotary Position Embedding의 약자로 고차원 공간에서 토큰 임베딩을 회전시킴으로써 효과적으로 상대적 위치 관계를 인코딩하려는 방식 (참고 링크)
  - theta는 RoPE에서 위치 인코딩을 위한 중요한 하이퍼파라미터
- Tied Word Embedding
  - 임베딩 가중치(vocab size X hidden size)가 디코더(hidden size X vocab size)와 엮여있어 하나의 행렬만 학습하도록 하는 임베딩 방식 (참고 링크)
사전학습 관련
- catastrophic forgetting
  - 모델이 연속해서 학습을 진행하면서, 이전에 배운 지식을 까먹는 현상
  - continual learning 분야에서 지속적으로 연구되어 온 분야
  - 이전에 학습한 데이터의 일부를 이후 학습에 다시 활용하는 replay 방법론을 포함해 여러 방법론이 존재

2.4B, 7.8B, 32B의 세 가지 크기 모델 제공
- 7.8B와 32B의 경우 Real-World Use case, Long Context 벤치마크에서 우수한 성능
- 2.4B의 경우 General Domain 벤치마크에서 뛰어난 성능
32K 토큰까지 처리 가능 (긴 문맥; long context 처리 가능)
유사한 크기의 다른 모델들 대비 학습 비용이 낮음
- Exaone 3.5 32B: 학습 토큰 6.5T
- Qwen 2.5 32B: 학습 토큰 18T
- Gemma 2 27B: 학습 토큰 13T

거대한 학습 코퍼스로 1차 사전학습 진행
평가 후 강화가 필요한 도메인의 데이터를 수집해 2차 사전학습 진행
2차 사전학습 시 긴 문맥 처리 능력을 강화하기 위한 long-context fine-tuning 활용
- 1차 사전학습 단계에서 사용한 데이터의 일부를 활용해 replay 기반 방법론을 도입, catastrophic forgetting 방지
학습 시 벤치마크 테스트 데이터셋이 사용되는 것을 방지하기 위해, decontamination 진행
- 단순한 substring-level matching 방식을 활용

지도 파인튜닝 (Supervised Fine-tuning)

선호 최적화 (Preference Optimization)

사람의 선호를 학습하기 위해, DPO, SimPO와 같은 Direct alignment algorithm (DAA) 활용
가상(synthetic) 데이터 및 사전에 수집한 데이터 활용해 선호 데이터셋 생성
- 1. 여러 모델들을 활용해 N개의 답변을 샘플링
- 1. reward model을 활용해 최고 답변과 최악 답변을 선정
- 1. 추가적인 reward model을 활용해 두 개의 reward model이 결정한 순위 사이의 일관성(agreement)을 확인한 후 threshold를 넘지 못한다면 해당 데이터 제외

Real-world Use Case

Long Context (긴 문맥)

General Domain (일반 도메인)

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab