LLM은 매우 큰 규모의 파라미터와 데이터를 기반으로 훈련된 Autoregressive Transformer 모델을 의미한다. 보통 GPT 계열처럼 Decoder-only 구조를 따르며, 다음 단어를 예측하는 방식으로 작동한다.
이런 능력은 단순히 모델이 커지기만 하면 생기는 것이 아니라, Token 수, 파라미터 수, 연산 예산이 임계값을 넘을 때 나타난다.
token count : 얼마나 많은 토큰 (문자열 단위)를 학습했는가
parameter count : 모델 내부의 학습 가능한 가중치 수
compute budget : 학습이 들어간 전체 연산 자원
하나의 모델로 다양한 작업을 수행 가능하다. 즉, 모델이 커질수록 범용적 언어 이해 및 생성 능력이 강해진다 !
모델이 특정 임계 크기를 넘어서면 갑자기 새로운 능력이 자발적으로 등장한다. 작은 모델에서는 전혀 보이지 않던 능력이, 어느 순간 급격하게 향상된다.
다음 사진에서도 알 수 있듯, Emergent 능력은 모델 크기에 따라 폭발적으로 증가한다. 그래프에 따르면, 모델 FLOPs(훈련 연산량)이 커질수록 정확도가 급상승하는 지점이 있다.

예시
| Task 유형 | 임계 크기 | 정확도 향상 | 의미 |
|---|---|---|---|
| 다단계 산술 연산 | 30~50B 파라미터 | 30% → 85% | 상징적 추론 가능 |
| CoT 수학 문제 | 100B + CoT 프롬프트 | <10% → 60% | 추론 능력 노출 |
| 코드 생성 | 30~70B | 거의 0% → 50%↑ | 실제 프로그래밍 대응 가능 |
| 저자원 언어 번역 | >65B, >1T tokens | BLEU 점수 +10 | 포괄적 언어 포용성 |
훈련 없이 입력 안에서 패턴만 보고 문제를 해결한다.
모델에게 정답만 요구하지 않고 풀이 과정을 단계적으로 보여주면 모델도 유사한 방식으로 복잡한 문제를 더 잘 해결할 수 있게 된다.

대규모 언어 모델은 어떻게 키워야 효과적일까 ?
Validation loss는 파라미터 수, 데이터량, 계산량에 대해 파워 법칙(power law)를 따름.
→ 즉, 모델의 크기나 학습 데이터가 늘어날 수록 성능 향상은 예측 가능한 방식으로 증가한다 !!
모델 크기나 데이터 양이 증가할 수록 손실은 서서히 감소한다. 그러나, 지수적으로 효율은 떨어진다.

고정된 연산량을 기준으로 할 때, 파라미터 수와 데이터 양은 다음과 같은 비율로 분배해야 최적화 가능하다.

해석 : 모델 크기 > 데이터 양 이 더 중요하다는 의미 !

위 그래프를 보면, 'compute, dataset, parameters' 모두 loss를 일정한 법칙으로 줄인다.
데이터보다는 모델 크기가 훨씬 민감하게 성능에 영향을 미친다.
Kaplan과 달리, 데이터 양 부족이 문제라는 주장을 한다.
→ 결론 : 계산 자원이 같다면, 모델을 줄이고 데이터를 늘리는 게 더 낫다.

위 그래프를 참고해보면 같은 연산량일 때, 더 작은 모델 + 더 많은 데이터가 더 좋다는 것을 볼 수 있다.
LLM의 출력은 왜 항상 똑같지 않을까 ?
왜냐하면, 모델은 다음 단어를 확률 분포로 예측하고, 그 중 하나를 선택해서 출력하기 때문이다.
LLM은 입력 문맥을 처리한 후, 각 시점마다 단어(토큰)에 대한 softmax 확률 분포를 생성한다.

이 분포를 어떻게 설정하느냐에 따라 결과는 크게 달라진다. 유창성, 다양성, 반복성, 사실성, 독성까지 !!
확률 분포를 조정하는 스케일링 파라미터
확률이 높은 k개 토큰만 남기고, 나머지는 버림
누적 확률이 p이상이 되는 최소 토큰 집합에서 샘플링
대부분의 실제 사용 사례에서 다음과 같은 조합을 사용한다.
Temperature = 0.7, Top-p : 0.9
대규모 언어 모델은 어떻게 훈련될까 ? 오늘날의 LLM은 단순히 하나의 학습으로 끝나지 않는다. 3단계에 걸쳐 훈련되며, 각각의 단계는 서로 다른 목적을 가지고 있다.
두뇌 만들기
사용 데이터
→ 이 단계에서 만들어진 모델은 흔히 말하는 base model 이다.
말 잘 듣는 모델로 바꾸는 단계
데이터
→ 이 과정을 통해 모델은 '단순한 텍스트 예측기' 에서 질문에 답할 줄 아는 조력자로 발전
사람이 선호하는 방향으로 모델을 정렬하는 단계
방법
앞서 말한, 인간 피드백을 바탕으로 LLM이 바람직한 출력을 생성하도록 강화학습을 적용하는 방식이다.
좋은 응답에는 보상을, 나쁜 응답에는 벌을 !
LLM 출력 s에 대해 사람이 부여한 보상 R(s)에 따라 모델의 출력 확률을 조절한다.

다음 식에서
사람의 피드백은 비싸다. (비용 문제)
사람 대신 LLM 판사 (Reward Model)을 학습
이 방식은 RLAIF (Reinforcement Learning from AI Feedback)이라고 불리기도 함.
사람 평가가 부정확하거나 일관되지 않다.
절대 평점 대신, 쌍(pairwise) 비교를 요청한다.
