HyperCLOVA X THINK: 네이버의 새로운 Reasoning 모델 논문 정리

jihyelee·2026년 4월 4일

language-model

목록 보기

18/20

데이터 준비

데이터 파이프라인
- 스키마 표준화(schema standardization)를 통한 데이터 형식 통합
- 품질 평가 및 필터링
데이터 필터링
- 한국어의 언어적, 타이포그래피적 특징을 반영하여 2단계 필터링 진행
- 1단계의 경우 정량적인 규칙 기반, 2단계의 경우 모델을 활용한 점수 부여 (이진, 0-5점)
합성 데이터 생성
- 도메인(교육, 법, 역사, 문화)에 집중하여 합성 데이터 생성
- 기존의 문서를 재작성하거나, 시드 프롬프트로부터 새 텍스트를 생성
- 1) 데이터 디자인 2) 시드 확보 및 생성 3) 필터링 및 정제 4) 통합 단계로 구성

모델 아키텍처

연산-메모리 균형 아키텍처
- 얕고 넓은 트랜스포머 구성 (shallower-but-wider)
- 넓이를 중심으로 용량을 재할당했을 때 모델의 품질은 유지하면서도 하드웨어 효율성을 달성
안정지향적 트랜스포머
- µP(Maximal Update Parametrization)과 Peri-Layer-Normalized 트랜스포머 결합
- 하이퍼파라미터의 전이와 안정적인 학습 스케일링이 가능하여 비용 효율성 달성 가능

사전학습 커리큘럼

1단계: 기반 지식 구축
- 다양한 도메인 대상으로 지식 학습
- 총 6T 토큰 활용
2단계: 도메인 특화 역량 확보
- 1T 토큰 추가 활용
- 도메인 지식과 추론(reasoning) 능력 고도화
3단계: 컨텍스트 윈도우 확장 및 긴 추론 내재화
- 길이 기반, 비율 유지 리샘플링(length-based, proportion-preserving)을 통한 학습 안정성 유지
  - 각 길이 버켓 내의 전체 토큰 수는 유지하면서 긴 문서의 수는 늘리는 방식
- 긴 chain-of-thought 코퍼스를 추가적으로 학습
- 기존 8K에서 128까지 컨텍스트 윈도우 확장

Supervised Fine-tuning (SFT)

Reinforcement Learning with Verifiable Rewards (RLVR)

GRPO를 활용해 학습 진행
- KL Divergence Penalty를 제거
- Constant Normalization 적용
- 탐색을 위해 Upper Bound를 완화
데이터 효율성
- 너무 쉽거나 너무 어려운 프롬프트는 제외
- 오프라인, 온라인에서 모두 데이터 필터링 진행
보상(reward) 구성
- format reward: 모델 응답에서 준수된 규칙의 수 / 전체 규칙의 수
- language reward: 프롬프트와 같은 언어로 생성된 글자의 비율
- verifiable reward: 0, 1 (이진)
- overlong reward: soft overlong penalty와 overlong loss masking 도입
  - 길이 때문에 유효한 추론에 페널티를 부여하면 학습 안정성을 저해하고 원치 않는 보상 노이즈가 발생할 수 있기 때문
  - 전자는 응답 길이기 미리 정의한 최대 값을 넘는다면 점차 증가
  - 후자는 잘린(truncated) 샘플들의 loss를 마스킹
rollout sampling 최적화
- 비동기로 샘플링 진행하여 효율성 증가

Reasoning Length Controllability

길이에 페널티를 주는 보상 함수를 사용
인풋 지시사항에 "Think for maximum N tokens"를 추가
- N의 범위는 1024, 2048, 4096, 8192, 16384

Reinforcement Learning from Human Feedback (RLHF)