요즘 오픈소스 LLM은 춘추전국 시대를 겪고 있는데요
(Llama, Qwen, Mixtral...)
시중에 사용할 수 있는 대부분의 모델은 한국어 성능이 부족한 이슈가 존재합니다.
이런 한국어 오픈소스 LLM 갈증을 해결해 줄 수도 있는 한국어 성능이 좋은 LLM인 Qwen이 2024년 06월 06일에 발표되었습니다.
해당 모델은 알비바바 Qwen 팀에서 선보인 모델인데요

라마3 70B의 성능을 뛰어넘는 성능을 보여주고 있고
Qwen/Qwen2-72B-Instruct, Qwen/Qwen2-7B, Qwen/Qwen2-7B-Instruct-GPTQ-Int8 다양한 형태의 모델을 제공하고 있습니다.
해당 모델에 대한 TECHNICAL REPORT가 24년 7월 15일에 발표되어 한 번 살펴보겠습니다.
알리바바는 대형 언어 모델(LLM)인 Qwen2 시리즈를 소개합니다.
해당 모델은 0.5B~72B의 다양한 매개변수를 가지는 모델를 공개합니다.
Qwen2는 다양한 오픈소스 LLM을 성능을 능가하며 선행 모델인 Qwen1.5보다 뛰어난 성능을 보이고 잇습니다.
주요 모델인 Qwen2-72B는
MLU에서 84.2점, GPQA에서 37.9점, HumanEval에서 64.6점, GSM8K에서 89.5점, BBH에서 82.4점을 기록했습니다.
30개 언어에 능숙한 다국어 능력을 보여주며,
영어, 중국어, 스페인어, 프랑스어, 독일어, 아랍어, 러시아어, 한국어, 일본어, 태국어, 베트남어 등 다양한 언어를 지원합니다.
혁신적인 모델 발전을 위해 모델 가중치를 공개하여 다양한 연구 작업을 촉진합니다.
LLM 등장 이후 LLM은 엄청난 관심을 받게 됩니다.
점점 더 많은 경쟁력 있는 LLM이 OPENAI의 GPT 시리즈와 유사한 발전을 추구하고 있습니다.
Qwen, Mistral, Gemma등과 같이 오픈 가중치 방식으로 출시되었습니다.
Qwen은 언어, 비전, 오디오 모델과 같이 다양한 모델을 출시하였고 이번에 최신 Qwen2를 소개합니다.
Qwen2는 Transformer 아키텍처에 기반을 두고 다음 토큰을 예측하는 LLM 시리즈 중 하나입니다.
해당 모델 시리즈는 기본 언어 모델(사람의 선호도에 맞춰지지 않은 사전 학습 모델), instruction-tuned 모델을 출시합니다.
0.5억, 1.5억, 7억, 72억 매개변수를 가진 모델 4가지를 출시하였습니다.
이 중 0.5억, 1.5억 모델은 휴대용 장치에 쉽게 배포할 수 있게 설게되었습니다.
모든 모델은 다양한 도메인과 언어를 포함하는 7조 개 이상의 토큰으로 구성된 고품질 데이터셋에서 사전 학습되었습니다.
이후 훈련에 대해서는 모든 모델은 supervised된 fine-tuning과 DPO를 거쳐 학습함으로써 인간의 선호도에 맞춰져있습니다.
오픈, 독점 모델을 포함한 다양한 모델들과 비교분석을 수행하였습니다.
다양한 벤치마크에서 Qwen2는 경쟁 모델을 능가하는 것을 확인했습니다.

Qwen2의 토크나이저와 모델 설계를 소개합니다.
byte-level bytepair encoding 기반한 Qwen과 동일한 토큰나이저를 사용합니다.
해당 토큰나이저는 높은 압축률을 보여주어 높은 인코딩 효율성을 나타내면 다국어 기능을 향상시킵니다.
모든 크기의 모델은 151,643개의 일반 토큰과 3개의 제어 토큰으로 구성된 공통 어휘를 사용합니다.
Transformer 아키텍처에 기반한 대형 언어 모델로 self-attention with causal masks를 사용합니다.
이 시리즈는 4가지 규모의 밀집 언어 모델과 전문가 혼합(MoE) 모델을 포함합니다.
multiple Transformer layers, each equipped with causal attention mechanisms and feed-forward neural networks (FFNs)
Qwen과 주요 차이점
Qwen2 MoE 모델은 FFN 대신, MoE FFN은 각각 전문가로 역할하는 개별 FFNs로 구성됩니다.
Qwen2의 사전 훈련에서는 데이터셋을 정제하고 확장된 컨텍스트 길이를 효과적으로 처리하는 방법 개선을 중점으로 두었습니다.
고품질 데이터셋 구축, 필터링 알고리즘, 30개 언어 지원, 다양한 출처와 도메인 데이터셋을 학습에 사용했습니다.
기존 3조 개의 토큰에서 7조 개의 토큰으로 확장되었습니다.
이 과정에서 12조 개의 토큰 데이터셋을 사용했지만 7조 개의 토근과 비교하여 모델 성능 향상이 눈에 띄지 않았습니다.
이에 따라 훈련 비용을 고려하여 7조 개의 토큰 데이터셋을 사용했습니다.
Qwen2의 긴 컨텍스트 처리 능력을 향상시키기 위해 컨텍스트 길이를 4,096 토큰에서 32,768 토큰으로 확장했습니다.
모델의 길이 외삽 잠재력을 최대한 활용하기 위해, 우리는 YARN 메커니즘과 Dual Chunk Attention 메커니즘을 채택했습니다.
대규모 사전 훈련 후, 우리는 Qwen2의 사후 학습 단계를 진행합니다.
다른 모델들이 supervised 학습에 크게 의존하는 것과 달리 최소한의 인간 주석으로 확장 가능한 학습에 중점을 둡니다.
SFT, RLHDF을 위해 고품질의 데모 및 선호 데이터 획득 방법을 조사하여 인간 레이블링의 필요성을 최소화하면서 품질과 신뢰성을 극대화하는 것을 목표로 합니다.
포스트 트레이닝 데이터는 주로 두 가지 구성 요소로 구성됩니다:
데모 데이터 D = {(xi, yi)}와 선호 데이터 P = {(xi, y+i, y−i)}
여기서 xi는 명령어를 나타내고, yi는 만족스러운 응답을 나타내며, y+i와 y−i는 xi에 대한 두 개의 응답으로, y+i가 y−i보다 선호되는 선택입니다.

위의 표에서 알 수 있듯이 대부분의 성능이 다른 오픈 LLM과 비교하여 더 좋은 성능을 보이는 것을 확인할 수 있습니다.

작은 모델의 경우도 마찬가지로 시중의 오픈 LLM과 비교하여도 높은 성능을 보이고 있습니다.
공개적으로 접근 가능한 가중치를 가진 LLM은 연구와 발전에 기여합니다.
또한 AI 기술의 오용을 막기 위해서는 안전하고 책임 있는 LLM을 구축하는 것이 중요합니다.
다국어 안전 평가를 통해 다양한 언어에서 LLM의 안전 성능을 테스트합니다.

위의 표에서 볼 수 있듯이 GPT4와 비교하여도 더욱 안전한 응답을 보여주는 것을 확인할 수 있습니다.
실제 실사용에서도 Qwen 보안 가이드라인이 다른 오픈 LLM과 비교하여도 더 좋은 보안을 가지고 있는 것을 확인할 수 있습니다.
Qwen2는 다양한 매개변수를 가진 LLM 가중치를 공개하였습니다.
다양한 모델들은 Qwen1.5, 다른 오픈 LLM과 비교하여도 높은 성능을 확인할 수 있습니다.
언어 이해, 생성, 다국어 능력, 코딩, 수학, 추론 등의 다양한 벤치마크에서 독점 모델들과 경쟁력 있는 성능을 보입니다.