HyperCLOVA X 32B Think: Vision-to-Text로 확장한 네이버의 멀티모달 모델

jihyelee·2026년 4월 5일

Language Model Multimodal 논문리뷰

language-model

목록 보기

19/20

논문: HyperCLOVA X 32B Think

요약

한국의 언어적, 문화적 문맥을 반영한 추론(reasoning) 및 에이전트 역량에 특화된 비전-언어모델
텍스트 토큰과 비전 패치가 동일한 연속적인 임베딩 공간으로 프로젝션되는 디코더 기반 트랜스포머
- 즉, 이미지와 텍스트가 같은 벡터로 번역된 뒤 하나의 통합된 어텐션 메커니즘을 통해 서로의 관계를 함께 학습하는 멀티모달 모델임
사전학습은 한국어 추론 역량을 중점으로 진행
사후학습은 SFT를 통해 멀티모달 역량을 학습한 뒤, RL을 통해 멀티모달 추론, 에이전트 역량, 사람 선호와의 얼라인을 학습

모델

구조

디코더 기반의 트랜스포머
학습 안정성과 추론 효율성을 위해 아래와 같은 컴포넌트들 선택
- pre-normalization: RMSNorm
- FFN의 활성화 함수: SwiGLU
- position encoding: RoPE (긴 문맥 학습)
- attention: grouped query attention (KV 캐시 효율성)
멀티모달 역량을 통합하기 위해, streamlined fusion strategy 사용
- 구조적 복잡성을 최소화하고 효율성을 개선시킬 수 있음
- visual representation을 트랜스포머 임베딩에 프로젝션 시키고, 텍스트 토큰 임베딩에 끼워넣어(interleave) 사용

텍스트 토큰화

pre-tokenizer 단계

다른 언어가 섞이는 것(merge)을 방지
토크나이저 압축 효율성과 다운스트림 태스크 성능에 영향을 미침
숫자에는 단일 숫자(single-digit) 토크나이제이션을 적용
- 코드와 수학 태스크에서의 성능 저하를 막을 수 있음
- 이로 인해 발생할 수 있는 토큰 경계 편향(token boundary bias)을 방지하고자 정규화(regularization) 기술인 StoChasTok 적용

subword tokenizer 단계

tiktoken를 수정 적용하여 사용
1. 제거(pruning) 단계
- 한국어 글자와 연관된 기존의 머지 규칙을 제거
- 사용성이 낮은 규칙들(e.g. 타겟이 아닌 언어들) 제거
1. 대체(substitution) 단계
- 내부 코퍼스를 대상으로 학습된 subword tokenizer로부터 나온 새로운 머지 규칙을 삽입

비전 인코더

Qwen2.5-VL의 비전 트랜스포머 아키텍처 적용
local-window attention 메커니즘 적용
- 고화질 혹은 길이가 긴 인풋을 처리할 때 연산 효율성 유지 가능
비전 인코더 모듈 다음에 linear adapter를 활용하여, 비전 인코더 출력을 선형 변환하여 LLM에 넣음
비주얼 토큰의 효율성을 높이기 위해, 최대 해상도와 최대 프레임 수를 제한
한국 특화 멀티모달 역량을 학습 (parameter unfrozen)

학습

사전학습 (Pre-Training)

데이터 준비

Datatrove와 NeMo-Curator를 통합한 파이프라인 설계
1. 데이터 수집 및 정규화 (스키마 통일)
1. 문서 기반 품질 점수 부여 및 PII 마스킹
1. 단계별 특화 코퍼스 구축 (필터링)
1. 샤딩된 파일로 문서 직렬화(serialization)

데이터 필터링

규칙 기반 필터링 1차 진행
모델 기반 품질 점수 2차 진행
- 한국어에 특화된 0-5점 기반의 품질 점수 모델 학습
- 고품질의 외부 코퍼스, 내부 확보 코퍼스, LLM 기반 어노테이션을 통해 수집된 저품질 문서 등 활용
- Qwen3-Embedding-0.6B 파인튜닝
MinHash 기반 중복 문서 삭제

합성 데이터셋 생성

기존 문서 개선 및 품질을 높이기 위한 재작성
고품질 시드 데이터 기반 새로운 텍스트 생성

사전학습 커리큘럼

언어적, 사실적 지식 학습에서 시작해 긴 문맥과 추론(reasoning) 학습까지 진행
컨텍스트 윈도우와 고품질 데이터의 비중을 점진적으로 확대
- 추론(reasoning)을 위한 합성 데이터를 사전 학습 시 사용
Fill in the Middle 적용 (약 10% 토큰)
- 빈 칸을 채우는 역량을 높이고 코드 생성과 긴 문맥 모델링 개선에 효과적

1단계: 기반 지식 구축

넓은 범위의 언어학적, 사실적 지식을 다국어로부터 학습 (주로 한국어, 영어)
6T 토큰 활용

2단계: 컨텍스트 확장 및 품질 업샘플링

컨텍스트 길이 4K에서 8K로 확장
고품질 SFT 데이터와 CoT 데이터가 사전학습 시 혼합되어 사용됨
- 지시사항 준수 역량을 구축하기 위함

3단계: 추론(reasoning) 및 긴 문맥 적용

컨텍스트 길이 32k로 확장
긴 문맥 모델링, 추론 역량 증강
일반적인 한국어, 영어 문서에 더 엄격한 필터링을 적용
추론향 합성 데이터의 비율을 늘림

4단계: 고품질 안정화(annealing)

고품질 추론 데이터셋을 기반으로 추론 역량 강화

사후 학습

Supervised Fine-Tuning (SFT)

Text Supervised Fine-Tuning (TSFT)

3가지 종류의 학습 데이터 사용
- 일반적인 지시사항 준수를 위한 non-reasoning
- 다단계 추론을 위한 reasoning
- 일련의 의사결정과 도구 증강 상호작용을 위한 agent
각각의 학습 데이터는 각기 다른 필터링 파이프라인을 사용
고품질 데이터 확보를 위해 모든 테스트 케이스를 통과한 trajectory만을 활용

Multimodal Supervised Fine-Tuning (MSFT)

1. cross-modal alignment
- 비주얼 피처를 텍스트 임베딩에 얼라인
1. multimodal knowledge learning
- 비주얼 지식과 표현(representation) 역량 확대
1. task-oriented instruction tuning
- 태스크향 멀티모달 상호작용 역량 향상
1. advanced reasoning and video understanding
- 긴 문맥 멀티모달 추론과 시간적 역학 학습
텍스트 기반 추론 역량의 저하를 막기 위해, TSFT 데이터가 1단계를 제외하고 사용됨

Reinforcement Learning (RL)

Multimodal Reinforcement Learning with Verifiable Rewards (MRLVR)

다단계 학습 진행을 통해 각기 다른 역량 학습
- 일반적 추론 역량 향상 (integraded domain RLVR)
- 추론 길이 통제 (length-control RLVR)
- 목표 완수 확인 (multi-turn RLVR)
- 지시사항 준수 (instruction-following RLVR)
아웃풋 형식, 언어 일관성, 반복 등을 통제하기 위한 보조 보상(auxiliary reward) 활용
오프라인 데이터 필터링을 통해 너무 쉽거나 과하게 어려운 데이터 제외
GRPO 활용 (+ dynamic sampling, adaptive clipping)

Reinforcement Learning for Agent (Agent-RL)

일반 에이전트와 SWE(Software Engineering) 에이전트를 별도 단계(phase)로 학습
- SWE 에이전트의 rollout이 일반적으로 더 길고 턴이 더 많음
보상은 다음 보상들의 가중합으로 계산됨
- 규칙 기반 verifiable reward와 LLM-as-a-judge 기반 자연어 reward
- 아웃풋 형식
- 인풋-아웃풋 언어 일관성
GRPO 활용 (KL 페널티 제거, PPO clipping의 상한을 하한보다 높게 설정)
이밖에도 offline reward filtering, thinking mode fusion, adaptive rollout sampling parameter, self-correction via error feedback, service caching 등 적용

Multimodal Reinforcement Learning from Human Feedback (MRLHF)

사람 선호도와 얼라인하기 위한 학습 과정
보상 모델 학습
PPO를 활용한 정책 모델 학습
아웃풋 형식과 언어를 통제하기 위한 보조 보상 사용

평가

Omni-Evaluator를 활용해 평가
- 다양한 추론 엔진과 모달리티를 평가할 수 있는 통합된 평가 프레임워크
베이스라인 모델
- Qwen3-VL-32B-Thinking
- INternVL3_5 38B-Thinking
- EXAONE 4.0 32B
- GPT-5.1
- Qwen3 235B-A22B

Text-to-Text 벤치마크

한국어 벤치마크

언어학 및 문법: KoBALT
문화 및 상식: CLIcK, HAE-RAE Bench
한국어 STEM 및 전문 지식: KMMLU
벤치마크에 대한 자세한 설명은 HyperCLOVA X THINK 논문 정리 참고

영어 벤치마크

MMLU
- 인문학, 사회학, 과학 등 다양한 범주를 아우르는 지식을 측정
- 초등 수학, 미국 역사, 컴퓨터 공학, 법 등 57개 태스크
- 14,042개의 데이터로 이루어진 다지선다 문제
HellaSwag
- 문맥을 기반으로 한 상식적 추론 능력 평가
- 문장을 제대로 완성할 수 있는지를 평가
- 10,003개의 데이터로 이루어진 다지선다 문제
PIQA
- 물리적인 상식을 이해하고 있는지 여부 평가
- 2,000개(dev set) 혹은 3,000개(test set)로 이루어진 이지선다 문제
  - 테스트 셋의 경우 label 없음

번역 벤치마크

Flores+
- Wikinews, Wikijunior, Wikivoyage에서 샘플링한 영어 문장을 200개의 언어로 번역
- 언어별로 약 1,000개의 데이터 포함
- 1-shot 번역 성능 측정
- BLEU 평가지표 활용 (Ko-Mecab pre-tokenization 적용)

Vision-to-Text 벤치마크

한국어 벤치마크

KoNET
- 한국의 국가 교육 표준에 기반한 시험들 포함
- 초등학교, 중학교, 고등학교, 대학 수능 등을 포괄
K-MMBench
- 일반적인 이미지-언어 이해 능력을 평가
- 사물 인식, 속성 기반 추론(attribute reasoning), 상식 추론 등
- 약 4,300여 개 데이터로 구성된 다지선다 문제
K-DTCBench
- 한국어로 된 문서, 표, 차트 기반의 시각적 추론 평가
- 컴퓨터로 생성 혹은 사람 손으로 작성한 경우 모두 포함
- 총 240개 데이터로 구성된 다지선다 문제
KCSAT 2026 평가 시 확률 통계, 대수, 기하에서 모두 1등급 달성
- 64개의 독립적인 생성을 수행하고 다수결을 통해 최종 정답 결정 (consensus@64)

영어 벤치마크

SEED-IMG
- SEED-BENCH-2는 결합된(interleaved) image-text 인풋과 각각의 image, text 아웃풋을 평가할 수 있는 벤치마크
- 24,000개의 다지선다 문제로 구성
- 27개 영역 평가 가능 (e.g. 다음 이미지 예측, 인컨텍스트 캡셔닝, 시각적 추론, 차이 인식 등)
LLaVA-W
- LLaVA-Bench는 COCO와 In-the-Wild로 구성되어 있음
- 내부/외부 풍경, 밈, 그림, 스케치 등을 포함한 24개 이미지와 60개 질문으로 구성
- 각 이미지는 자세하게 작성된 설명이 포함되어 있음
- LLM-as-a-judge로 답변 평가
TextVQA
- 이미지 내의 텍스트를 읽고 추론할 수 있는지 평가
- 45,336개로 구성, 사람 간 평가 다양성을 고려한 단어 기반 정확성 평가 (VQA accuracy)
DocVQA
- 120,000개 이상의 문서 이미지로 구성된 50,000개 질문 데이터
- 단순히 텍스트를 읽는 능력이 아니라 문서의 레이아웃/구조 내에서 텍스트를 해석할 수 있는지 평가
- 평가지표로 ANLS (Average Normalized Levenshtein Similarity) 활용

비디오 벤치마크

Video-MME
- 다양한 비디오 유형 및 시간 길이, 멀티모달 인풋 고려(비디오 프레임, 자막, 오디오 등), 전문가 어노테이션을 특징으로 하는 영상 기반 벤치마크
- 900개 영상(총 254시간) 바탕으로 2,700개 데이터 확보(다지선다)
- 63.4점 달성으로 GPT-4V(59.9)보다 좋은 성능을 보였음
- Qwen3-VL-32B-Thinking(77.3)보다는 낮은 성능
NAVER TV Content Comprehension
- 내부 벤치마크
- 67.1점 달성으로 에서도 GPT-4V(50.0)보다 좋은 성능

에이전트 벤치마크

Tau2 Bench
- 통신, 소매, 항공 도메인을 기반으로 멀티턴 상호작용을 통해 목표를 달성할 수 있는지 여부 평가
  - 통신 도메인의 경우, LLM을 사용자로 가정 (user-simulator)
- 총 279개 태스크 (통신 114, 소매 115, 항공 50) 기반 평가
- 평가지표로는 pass^k(=k번 실행 시 k번 모두 성공하였는가) 사용
Terminal Bench
- 도구향 추론 및 커맨드라인 환경 내 소프트웨어 엔지니어링 역량 측정
- 1.0의 경우 총 80개의 태스크로 구성

jihyelee

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab

HyperCLOVA X 32B Think: Vision-to-Text로 확장한 네이버의 멀티모달 모델

language-model

요약

모델

구조

텍스트 토큰화

비전 인코더

학습

사전학습 (Pre-Training)

데이터 준비

사전학습 커리큘럼

사후 학습

Supervised Fine-Tuning (SFT)

Reinforcement Learning (RL)

평가

Text-to-Text 벤치마크

Vision-to-Text 벤치마크

HyperCLOVA X THINK: 네이버의 새로운 Reasoning 모델 논문 정리

HyperClova X 8B Omni: 네이버의 첫 옴니모델 논문 정리

0개의 댓글