개인화되고 멀티모달 경험을 가능하게 할 Llama 4 시리즈의 첫 번째 모델들을 공개되었습니다.
Llama 4 Scout는 16개의 Experts를 사용하는 170억 활성 파라미터 모델로 동급 최고의 멀티모달 모델이며 이전 세대의 모든 Llama 모델보다 강력하면서도 단일 NVIDIA H100 GPU에 탑재될 수 있습니다.
업계 최고 수준인 10M 토큰의 컨텍스트 윈도우를 제공하며 광범위하게 다양한 벤치마크에서 Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1보다 뛰어난 성능을 보여줍니다.
Llama 4 Maverick는 128개의 Experts를 사용하는 170억 활성 파라미터 모델로 동급 최고의 멀티모달 모델이며, GPT-4o, Gemini 2.0 Flash를 능가하는 성능을 보입니다.
DeepSeek v3에 비해 절반 이하의 활성 파라미터로 비슷한 수준의 추론 및 코딩 성능을 달성합니다.
Llama 4 Maverick은 업계 최고 수준의 성능 대비 비용 비율을 자랑하며 실험용 챗버전은 LMArena에서 ELO 1417을 기록했습니다.
두 모델이 최고의 성능을 낼 수 있었던 이유는 Llama 4 시리즈의 최상위 모델인 Llama 4 Behemoth로부터 distillation 되었기 때문입니다.
Llama 4 Behemoth는 16명의 Experts와 함께하는 2880억 활성 파라미터 모델로 지금까지 우리가 만든 모델 중 가장 강력하며 세계에서 가장 지능적인 대규모 언어 모델 중 하나입니다.
이 모델은 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro보다 다양한 STEM 벤치마크에서 더 뛰어난 성능을 보입니다.
Behemoth는 현재도 학습 중이며 더 많은 정보를 곧 공유할 예정입니다.
더 많은 사람들이 인공지능을 활용해 일상생활을 향상시키고 있습니다.
많은 사람들이 개인화된 경험의 미래를 구축할 수 있도록 선도적인 모델과 시스템을 개방하는 것이 중요합니다.
새로운 모델군은 전례 없는 컨텍스트 길이 지원과 MoE 아키텍처를 기반으로 한 최초의 오픈 웨이트 네이티브 멀티모달 모델인 Llama 4 Scout와 Llama 4 Maverick을 소개합니다.
세계에서 가장 지능적인 LLM 중 하나이자 지금까지 만든 가장 강력한 모델인 Llama 4 Behemoth도 선공개합니다.
이 모델은 새로운 모델들을 교육하는 교사 역할을 합니다.
Llama 4 모델들은 Llama 생태계의 새로운 시대의 시작을 알립니다.
두 가지 효율적인 모델을 설계했습니다.
Llama 4 Scout는 16개의 전문가로 구성된 170억 활성 파라미터 모델이며 Llama 4 Maverick는 128명의 전문가가 포함된 170억 활성 파라미터 모델입니다.
Scout는 Int4 quantization를 통해 단일 H100 GPU에 탑재될 수 있으며 Maverick은 단일 H100 호스트에서 실행됩니다.
Llama 4 Behemoth라는 교사 모델을 학습시켰으며 이는 MATH-500 및 GPQA Diamond와 같은 STEM 중심 벤치마크에서 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 능가합니다.
Llama 4 Behemoth는 아직 학습 중이기 때문에 지금은 출시되지 않지만 향후 기술적인 세부 사항을 공유할 예정입니다.
개방성(openness)이 혁신을 촉진하고, 개발자, 메타, 전 세계에 이롭다고 계속해서 믿고 있습니다.
오늘부터 llama.com과 Hugging Face에서 Llama 4 Scout와 Llama 4 Maverick을 다운로드할 수 있으며, 앞으로 며칠 내에 파트너사들을 통해서도 제공될 예정입니다.
WhatsApp, Messenger, Instagram Direct, 그리고 Meta.AI 웹사이트에서 Llama 4 기반 Meta AI를 체험할 수 있습니다.

이 모델들은 Llama의 최고 성능을 대표하며 가격 경쟁력 있는 멀티모달 지능을 제공하면서도 훨씬 더 큰 크기의 모델들을 능가합니다.
차세대 Llama 모델을 구축하기 위해 우리는 사전 학습 과정에서 여러 가지 새로운 접근 방식을 도입했습니다.
새로운 Llama 4 모델은 처음으로 MoE(Mixture of Experts) 아키텍처를 사용한 모델입니다.
MoE 모델에서는 단일 토큰이 전체 파라미터 중 일부만 활성화합니다.
MoE 아키텍처는 훈련과 추론 모두에서 계산 효율성이 높으며 주어진 훈련 FLOPs 예산 내에서, dense 모델에 비해 더 높은 품질을 제공합니다.
예를 들어, Llama 4 Maverick 모델은 170억 개의 활성 파라미터와 4000억 개의 총 파라미터를 갖고 있습니다.
우리는 추론 효율성을 위해 dense layer과 MoE 계층을 번갈아 사용합니다.
MoE 계층은 128개의 라우팅 전문가와 하나의 공유 전문가를 사용합니다.
각 토큰은 공유 전문가와 128개의 라우팅 전문가 중 하나에 전송됩니다.
따라서 모든 파라미터는 메모리에 저장되지만 실제로는 일부 파라미터만 활성화되어 모델을 서비스하게 됩니다.
이는 모델 서비스 비용과 지연 시간을 줄여 추론 효율성을 향상시키며 Llama 4 Maverick은 단일 NVIDIA H100 DGX 호스트에서 쉽게 배포할 수 있고 분산 추론을 통해 최대 효율로 운영할 수도 있습니다.
Llama 4 모델은 텍스트와 비전 토큰을 통합된 모델 백본에 원활하게 통합하는 네이티브 멀티모달리티를 고려하여 설계되었습니다.
이 과정에서 early fusion 방식을 사용하였는데 이는 모델을 대규모의 라벨 없는 텍스트, 이미지, 비디오 데이터를 함께 사전 학습할 수 있도록 해줍니다.
Llama 4의 비전 인코더를 개선했습니다.
이 인코더는 MetaCLIP 기반이지만 고정된 Llama 모델과 함께 별도로 훈련되어 LLM에 더 잘 적응할 수 있도록 설계되었습니다.
MetaP라 불리는 새로운 훈련 기술을 개발하여 계층별 학습률 및 초기화 스케일과 같은 중요한 하이퍼파라미터를 안정적으로 설정할 수 있게 했습니다.
이 하이퍼파라미터들은 배치 크기, 모델 너비, 깊이, 훈련 토큰 수가 달라져도 잘 적용됩니다.
Llama 4는 200개 언어로 사전 학습되어 오픈소스 fine-tuning을 쉽게 하도록 설계되었고, 이 중 100개 이상의 언어는 각각 10억 개 이상의 토큰으로 구성되어 있습니다.
전체적으로는 Llama 3보다 10배 더 많은 다국어 토큰을 포함합니다.
FP8 정밀도를 사용하여 효율적인 모델 훈련을 달성하였으며 품질 손실 없이 높은 FLOPs 활용률을 보장합니다.
Llama 4 Behemoth 모델을 FP8과 32K개의 GPU로 사전 학습할 때 GPU당 390 TFLOPs의 성능을 달성했습니다.
훈련 데이터 구성은 30조 개 이상의 토큰으로 이루어졌으며 이는 Llama 3의 훈련 데이터량보다 2배 이상 많고 다양한 텍스트, 이미지, 비디오 데이터셋을 포함합니다.
"중간 훈련(mid-training)"이라 불리는 방식으로 모델의 핵심 역량을 향상시켰으며 이를 통해 특수한 데이터셋을 사용한 long context extension 같은 새로운 훈련 기법을 적용했습니다.
모델의 품질을 더욱 향상시키는 동시에 Llama 4 Scout 모델에서는 업계 최고 수준인 1천만 토큰 입력 길이를 달성할 수 있었습니다.


Llama 4 Maverick은 이미지 및 텍스트 이해에서 업계 최고 수준의 성능을 제공하며 언어 장벽을 허무는 정교한 AI 애플리케이션 개발을 가능하게 합니다.
일반적인 어시스턴트 및 챗봇 용도의 핵심 모델로 정밀한 이미지 이해와 창의적인 글쓰기 모두에 탁월한 성능을 보입니다.
Llama 4 Maverick 모델의 post-training 과정에서 가장 큰 도전 과제는 다양한 입력 모달리티, 추론 능력, 그리고 대화 능력 간의 균형을 유지하는 것이었습니다.
모달리티를 혼합하는 과정에서 개별 모달리티 전문가 모델들과 비교해 성능 손실이 없도록 신중하게 구성된 커리큘럼 전략을 도입했습니다.
Llama 4에서는 후처리 파이프라인을 다음과 같은 새로운 방식으로 개편했습니다:
SFT > 온라인 RL > DPO
중요한 배움 중 하나는 SFT와 DPO가 모델의 탐색 능력을 과도하게 제한할 수 있다는 점이었으며 이로 인해 특히 추론, 코딩, 수학 분야에서 정확도가 떨어지는 결과가 나타났습니다.
이를 해결하기 위해 우리는 Llama 모델을 평가자로 활용해 "easy" 태그가 붙은 데이터의 50% 이상을 제거하고 더 어려운 데이터셋에 대해 경량 SFT를 수행했습니다.
이어진 멀티모달 온라인 RL 단계에서는 더 어려운 프롬프트를 신중하게 선택함으로써 성능을 획기적으로 향상시킬 수 있었습니다.
지속적인 온라인 RL 전략을 구현했으며 여기서는 모델을 학습시킨 후 이를 다시 사용해 중간에서 어려운 난이도의 프롬프트만 필터링 및 유지하도록 했습니다.
이 전략은 연산 효율성과 정확도 간의 균형 면에서 매우 효과적이었습니다.
이후 모델 응답 품질의 극단적인 경우를 다루기 위해 경량 DPO를 수행했고 이를 통해 모델의 지능과 대화 능력 사이의 균형을 효과적으로 확보할 수 있었습니다.
이러한 파이프라인 아키텍처와 적응형 데이터 필터링이 결합된 지속적 온라인 RL 전략은 지능과 이미지 이해 면에서 업계 최고 수준의 범용 챗 모델을 완성시켰습니다.
Llama 4 Maverick은 170억 개의 활성 파라미터, 128명의 전문가, 총 4000억 개의 파라미터를 가지고 있으며 Llama 3.3 70B보다 더 높은 품질을 더 낮은 가격으로 제공합니다.
Llama 4 Maverick은 멀티모달 부문에서 최고 수준의 모델이며, GPT-4o나 Gemini 2.0 같은 비교 모델보다 코딩, 추론, 다국어, 긴 문맥, 이미지 벤치마크에서 더 우수한 성능을 보입니다.
심지어 훨씬 더 큰 규모의 DeepSeek v3.1과 비교해도 코딩과 추론에서 경쟁력이 있습니다.
소형 모델인 Llama 4 Scout는 170억 개의 활성 파라미터, 16명의 전문가, 1090억 개의 총 파라미터를 갖춘 범용 모델로, 동급 모델 중 최고 성능을 제공합니다.
Llama 4 Scout는 Llama 3에서 128K였던 지원 문맥 길이를 업계 최고 수준인 1천만 토큰으로 대폭 확장시켰습니다.
이는 다중 문서 요약, 광범위한 사용자 활동 분석, 방대한 코드베이스에 대한 추론 등 다양한 가능성을 열어줍니다.
Llama 4 Scout는 사전 학습 및 후처리 모두에서 256K 문맥 길이로 훈련되어 기본 모델 자체에 고급 문맥 길이 일반화 능력을 부여합니다.
예를 들어, "retrieval needle in haystack" 작업이나 1천만 토큰 코드에 대한 NLL 같은 과제에서도 뛰어난 결과를 보였습니다.
Llama 4 아키텍처의 핵심 혁신 중 하나는 위치 임베딩 없이 interleaved 어텐션 계층의 사용입니다.
우리는 추론 시 어텐션의 온도 스케일링을 통해 길이 일반화를 향상시켰습니다.
이를 우리는 iRoPE 아키텍처라고 부르며, 여기서 "i"는 "interleaved attention layers"를 뜻하고, "RoPE"는 대부분의 계층에 사용된 rotary position embeddings을 의미합니다.
이는 장기적으로 무한 문맥 길이를 지원하는 목표를 반영합니다.

이 모델은 해당 등급의 모델 중에서도 고급 지능을 보여주는 teacher model입니다.
Llama 4 Behemoth 역시 MoE(Mixture-of-Experts) 모델이며, 2880억 개의 활성 파라미터, 16명의 전문가, 그리고 총 약 2조 개의 파라미터를 보유하고 있습니다.
이 모델은 수학, 다국어 처리, 이미지 벤치마크 등에서 비추론 모델 중 최고 수준의 성능을 제공하며 소형 Llama 4 모델을 교육하는 데 완벽한 선택이었습니다.
우리는 Llama 4 Maverick 모델을 Llama 4 Behemoth로부터 co-distillation 하여 만들어냈고 이로 인해 다양한 최종 과제 평가 지표에서 품질이 대폭 향상되었습니다.
학습 중 소프트 타깃과 하드 타깃의 가중치를 동적으로 조정하는 새로운 증류 손실 함수를 개발했습니다.
Behemoth 모델로부터의 co-distillation 대부분의 학생 모델 훈련 데이터에 대해 자원이 많이 드는 포워드 패스를 사전 학습 중 미리 처리함으로써 계산 비용을 분산시키는 효과를 냈습니다.
추가로 새롭게 포함된 데이터에 대해서는 Behemoth 모델로 직접 포워드 패스를 수행해 distillation targets을 생성했습니다.
2조 파라미터 모델을 post-training 하는 것은 큰 도전 과제였으며 이를 위해 데이터 규모부터 시작해 전체 레시피를 전면 재설계해야 했습니다.
성능을 극대화하기 위해 소형 모델에서는 50%였던 SFT 데이터의 95%를 제거해야 했습니다.
이는 품질과 효율성을 확보하기 위한 조치였습니다.
SFT 이후에 대규모 강화 학습을 수행했을 때 모델의 추론 및 코딩 능력이 더욱 향상된다는 사실을 발견했습니다.
RL 전략은 정책 모델로 pass@k 분석을 수행하여 어려운 프롬프트를 샘플링하고, 점점 더 어려워지는 프롬프트 커리큘럼을 구성하는 데 중점을 두었습니다.
학습 중에 advantage이 0인 프롬프트를 동적으로 필터링하고, 여러 능력에서 추출된 다양한 프롬프트를 혼합한 학습 배치를 구성하는 것이 수학, 추론, 코딩에서 성능 향상에 결정적인 역할을 했습니다.
마지막으로 다양한 system instructions에서 샘플링하는 것이 모델이 추론 및 코딩에 필요한 지시문 따르기 능력을 유지하고, 다양한 과제에서도 우수한 성능을 발휘하는 데 핵심이었습니다.
2조 파라미터 모델에 대한 RL 확장은 전례 없는 규모로 인해 기존 RL 인프라를 전면 재설계해야 했습니다.
우리는 MoE 병렬화 구조를 속도 중심으로 최적화하여 더 빠른 반복 학습이 가능하도록 했습니다.
완전 비동기 온라인 RL 학습 프레임워크를 개발하여 유연성을 크게 향상시켰습니다.
기존의 분산 학습 프레임워크는 모든 모델을 메모리에 적재하기 위해 연산 자원을 희생했지만 새 인프라는 서로 다른 모델들을 각각 다른 GPU에 유연하게 할당하고 계산 속도에 따라 리소스를 모델 간에 동적으로 분배할 수 있도록 했습니다.
이러한 혁신 덕분에 이전 세대 대비 약 10배 향상된 학습 효율성을 달성할 수 있었습니다.