Jeff Dean - AI의 핵심 진화 흐름("Stanford AI Club: Jeff Dean on Important AI Trends")

okorion·2026년 1월 21일

Jeff Dean은 Stanford AI Club 강연에서, 오늘날의 대규모 AI 모델이 어떻게 만들어졌는지를 알고리즘·시스템·하드웨어 관점에서 정리했다. 이 강연은 “LLM이 갑자기 등장한 것이 아니라, 15년 이상 축적된 구조적 진화의 결과”라는 점을 명확히 보여준다.


1. 출발점: 신경망 + 스케일

  • Neural Network + Backpropagation은 50년 된 개념

  • 성능 도약의 핵심은 아이디어 자체가 아니라 ‘스케일’

    • 데이터
    • 연산량
    • 병렬화
  • 문제는 연산 자원 부족 → 병렬 학습 구조가 필수


2. Google Brain과 대규모 학습 인프라

  • 2011년 Google Brain 출범

  • CPU 기반 환경에서 Data Parallel / Model Parallel 학습 실험

  • 비동기 파라미터 업데이트(수학적으로는 “틀린 방식”)가 실제로는 잘 작동

  • 결과:

    • 당시 기준 50~100배 큰 모델 학습 가능
    • 대규모 모델이 실제로 성능을 끌어올린다는 증거 확보

3. 비지도 학습과 표현 학습의 가치

  • YouTube 영상 프레임으로 라벨 없는 학습

  • 모델 내부에서:

    • 고양이
    • 얼굴
    • 보행자
      같은 개념 뉴런이 자연 발생
  • 결론:

    • 대규모 비지도 학습은 “의미 있는 내부 표현”을 만든다

4. 언어 표현의 전환: Word Embedding

  • 단어를 벡터 공간의 점으로 표현

  • 의미적 거리와 방향이 실제 언어 규칙을 반영

    • king - man + woman ≈ queen
  • 언어 이해를 기호 처리 → 연속 공간 문제로 전환


5. Seq2Seq와 번역의 돌파

  • LSTM 기반 Sequence-to-Sequence
  • 입력 문장 → 출력 문장
  • 기계 번역 품질의 실질적 도약
  • “언어도 예측 문제”라는 관점 확립

6. 하드웨어 혁신: TPU

Tensor Processing Unit

  • CPU로는 한계 도달

  • 신경망 특성:

    • 저정밀 연산 허용
    • 대규모 행렬 곱 중심
  • TPU v1 결과:

    • CPU/GPU 대비 15~30배 빠름
    • 30~80배 전력 효율
  • 이후 TPU Pod → ML 슈퍼컴퓨터로 진화


7. 프레임워크의 개방

  • TensorFlow, PyTorch, JAX
  • 연구·산업 전반의 실험 속도 폭증
  • “아이디어 → 구현” 비용 급감

8. 결정적 전환점: Transformer

Transformer

  • 핵심 아이디어: Attention

  • 순차 처리(LSTM) 제거

  • 결과:

    • 10~100배 적은 연산
    • 더 작은 모델로 더 높은 성능
  • 현재 모든 LLM의 중심 구조


9. 대규모 언어 모델의 본질

  • Self-supervised Learning

    • 다음 토큰 예측
    • 마스킹된 단어 예측
  • 데이터는 무한, 정답은 자동 생성

  • 언어 모델 = 대규모 확률 예측기


10. Sparse Model (MoE)

  • 모든 파라미터를 매번 쓰는 건 낭비

  • 일부 전문가만 활성화

  • 결과:

    • 동일 성능 기준 ~8배 학습 비용 절감
  • Gemini 계열 모델도 Sparse 구조


11. 추론 능력 강화 기법

  • Chain-of-Thought Prompting

    • “답만 말해라” vs “풀이를 써라”
  • 모델이 토큰을 통해 사고할 시간 확보

  • 수학·논리 성능 대폭 향상


12. Distillation: 큰 모델 → 작은 모델

  • Teacher 모델의 확률 분포 자체를 학습
  • 소량 데이터로도 고성능 달성
  • 실서비스에 필수 기술

13. RL 기반 Post-training

  • RLHF / RLAIF
  • 수학·코딩처럼 검증 가능한 도메인에서 특히 강력
  • “맞으면 보상, 틀리면 패널티”
  • 추론 능력의 핵심 원동력

14. Gemini와 현재 위치

Gemini

  • 멀티모달 입력/출력
  • 초장문 컨텍스트
  • IMO 문제 금메달 수준 해결
  • 웹 개발·이미지·비디오 생성까지 확장

핵심 요약

  • LLM의 발전은 단일 혁신이 아니라 누적 진화
  • 알고리즘 × 시스템 × 하드웨어 × 데이터의 합
  • 현재는 “능력 확장”보다 어떻게 안전하고 효과적으로 쓰느냐가 핵심 과제

profile
okorion's Tech Study Blog.

0개의 댓글