대용량 고품질 데이터
와 정교한 후처리 기법(대규모 SFT 및 다단계 강화학습)
을 통해 모델 성능을 크게 향상시킨 최신 LLM 시리즈 Grouped Query Attention 같은 혁신적 기법을 도입
주요 개선 포인트
데이터 스케일 및 품질 개선:
후처리 전략의 혁신:
모델 구성 다양화:
긴 문맥 처리 능력 강화:
아키텍처
효율적인 KV 캐시 활용을 위해 쿼리 그룹화를 적용
비선형 변환의 성능을 향상
위치 인코딩을 위해 도입되어 긴 문맥 학습에 유리
안정적인 학습을 위한 추가 기법들을 적용
MoE(전문가 집합) 모델
로 나뉘며, 후자는 FFN 계층을 다수의 전문가(Expert)와 라우팅 메커니즘으로 대체
하여 성능과 효율성을 높임토크나이저
byte-level Byte-Pair Encoding(BBPE)
을 사용하며,