Qwen2.5 Technical Report

FSA·2025년 2월 9일
0

Large Language model

목록 보기
13/14



GPT 요약

4. 결론

  • 대용량 고품질 데이터정교한 후처리 기법(대규모 SFT 및 다단계 강화학습)을 통해 모델 성능을 크게 향상시킨 최신 LLM 시리즈
  • 또한, Transformer 기반의 아키텍처와 Grouped Query Attention 같은 혁신적 기법을 도입
  • Qwen2.5는 이러한 구조적 혁신을 통해 다양한 사용 사례(긴 문맥 처리, 수학, 코딩, 다국어 등)에서 탁월한 성능을 보입니다.


1. 논문의 개요 및 주요 개선 사항

주요 개선 포인트

  • 데이터 스케일 및 품질 개선:

    • 사전 학습 토큰 수를 기존 7조 토큰에서 18조 토큰으로 확대하여, 상식, 전문 지식, 수리적 추론 등 다양한 능력을 크게 향상
    • 수학, 코드 등 특정 도메인에 특화된 데이터를 포함하여 도메인별 전문성도 강화
  • 후처리 전략의 혁신:

  • 모델 구성 다양화:

    • 오픈 웨이트 모델로는 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B 등 여러 크기의 모델을 제공하며,
    • API 서비스용 Mixture-of-Experts (MoE) 기반의 Qwen2.5-Turbo 및 Qwen2.5-Plus 등도 함께 선보입니다.
  • 긴 문맥 처리 능력 강화:

    • 일부 모델은 최대 128K 토큰의 입력 문맥(예: dense 모델)과 8K 토큰의 생성 길이를 지원하며,
    • Qwen2.5-Turbo는 단계적 학습을 통해 최대 1백만 토큰까지의 문맥을 처리할 수 있습니다.


2. 모델 아키텍처 및 토크나이저

아키텍처

  • Transformer 기반: Qwen2.5는 Transformer 디코더 구조를 기본으로 하며, 기존의 Transformer 구조에 여러 가지 개선을 더하였습니다.
  • 주요 구성 요소:
    • Grouped Query Attention (GQA): 효율적인 KV 캐시 활용을 위해 쿼리 그룹화를 적용
    • SwiGLU 활성화 함수: 비선형 변환의 성능을 향상
    • Rotary Positional Embeddings (RoPE): 위치 인코딩을 위해 도입되어 긴 문맥 학습에 유리
    • QKV Bias 및 RMSNorm: 안정적인 학습을 위한 추가 기법들을 적용
  • 모델 변형:
    • Dense(일반) 모델과 MoE(전문가 집합) 모델로 나뉘며,
      • 후자는 FFN 계층을 다수의 전문가(Expert)와 라우팅 메커니즘으로 대체하여 성능과 효율성을 높임

토크나이저

  • Qwen 토크나이저byte-level Byte-Pair Encoding(BBPE)을 사용하며,
  • 어휘 집합은 151,643개의 정규 토큰과 이전 버전 대비 확대된 22개의 컨트롤 토큰을 포함합니다.



profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글

관련 채용 정보