Transition Matching Distillation for Fast Video Generation

곽태욱·2026년 1월 22일

AI Distillation diffusion image video

TMD(Transition Matching Distillation)가 어떻게 비디오를 실시간으로 만들어내는지는 시험 족보나 핵심 요약 노트에 비유할 수 있습니다.

원래 50번 고쳐 그려야 할 그림을, 한 번에 그리는 법을 배우는 것입니다.

1. 기존 방식: "장인 정신" (Diffusion Model)

원래 요즘 유행하는 비디오 생성 AI(예: Stable Video Diffusion)들은 디퓨전(Diffusion) 방식을 씁니다.

과정: 처음에 아무것도 없는 노이즈(지직거리는 화면)에서 시작해서, 아주 조금씩, 50번에서 100번 정도 노이즈를 걷어내며 이미지를 구체화합니다.
문제점: 퀄리티는 좋은데, 한 장 만드는 데도 50번의 연산이 필요하니 너무 느립니다. 실시간 생성은 꿈도 못 꾸죠.

비유하자면: 미대생이 점묘화를 그릴 때 점을 하나하나 꼼꼼히 찍어서 1시간 동안 그림을 완성하는 것과 같습니다.

2. TMD의 해결책: "핵심 요약 노트" (Distillation)

TMD는 이 느린 과정을 빠르게 만들기 위해 지식 증류(Distillation)라는 기술을 씁니다. 쉽게 말해 선생님(기존 느린 모델)의 노하우를 학생(TMD 모델)이 압축해서 배우는 과정입니다. TMD는 선생님 모델에게 이렇게 말합니다.

"선생님, 50단계 거치지 말고 시작점에서 도착점(완성된 비디오)으로 한 방에 가는 딸깍 지름길만 알려주세요."

3. 어떻게 실시간이 가능할까? (작동 원리)

TMD가 빠른 이유는 단계를 획기적으로 줄였기 때문입니다.

Transition Matching (경로 따라하기):
기존 모델이 1단계→2단계→...→50단계로 가는 경로(Trajectory)를 가지고 있다면, TMD는 1단계에서 50단계의 결과물로 바로 점프하는 궤적을 학습합니다.
1-Step ~ 8-Step 생성:
수십 번 반복해야 했던 연산을 단 1번에서 4번 정도로 줄여버립니다. 컴퓨터가 계산해야 할 양이 1/50로 줄어드니 속도가 엄청나게 빨라지는 거죠.

비유하자면:

기존 모델: 수학 문제를 풀 때 정석대로 풀이 과정을 20줄 써서 답을 냄.

TMD: 이미 그 유형을 마스터해서, 문제를 보자마자 암산으로 단 한 줄 만에 답(비디오)을 적어냄.

4. 요약: 왜 혁신적인가?

구분	기존 비디오 생성 모델 (Teacher)	TMD (Student)
방식	조금씩 노이즈 제거 (50단계 이상)	한 번에 결과물 예측 (1~4단계)
속도	느림 (비디오 하나에 몇 분 소요)	실시간 (밀리초 단위)
비유	꼼꼼한 정밀 묘사	숙련된 속사화(Croquis)

결국 TMD는 화질은 선생님(원본 모델)과 비슷하게 유지하면서, 속도는 비교도 안 되게 빠르게 만드는 '속성 과외를 받은 우등생 모델'이라고 이해하시면 됩니다. 덕분에 사용자가 프롬프트를 입력하자마자 기다림 없이 비디오가 툭 튀어나오는 것이죠.

번외: Distillation 기법이란?

Distillation은 학습할 땐 피 땀 눈물(엄청난 비용)이 들지만, 써먹을 땐 마법(초고속) 같은 기법입니다. 화학 시간에 알코올을 증류해서 불순물을 날리고 '엑기스'만 남기는 것과 똑같습니다.

AI에서는 거대하고 느린 선생(Teacher) 모델의 지식을 작고 빠른 학생(Student) 모델에게 주입하는 기술을 말합니다.

1. 원리: "과정은 생략하고 결과만 외워!"

기존의 50스텝 모델(Teacher)은 성실한 모범생입니다. 문제를 풀 때 풀이 과정을 1번부터 50번까지 꼬박꼬박 다 적어야 답을 냅니다.

Teacher (기존): $A \rightarrow B \rightarrow C \rightarrow \dots \rightarrow Z$ (총 50단계 이동해야 도착)

하지만 Distillation을 통해 배우는 학생(Student) 모델은 천재적인 요령꾼으로 훈련받습니다. 선생 모델이 힘겹게 계산해 낸 결과물( $Z$ )을 미리 보고, $A$ 에서 바로 $Z$ 로 가는 직통 공식을 만들어냅니다.

Student (TMD): $A \rightarrow Z$ (중간 과정 $B \dots Y$ 의 궤적을 예측해서 한 번에 점프)

비유하자면:

Teacher: 서울에서 부산까지 가는데, 내비게이션이 알려주는 대로 모든 휴게소와 교차로를 거쳐서 5시간 걸려 운전함.

Student: 수천 번 왕복해 본 결과, "아, 결국 서울에서 동남쪽 끝으로 가는 거잖아?" 하고 축지법(함수 매핑)을 써서 순간 이동함.

2. 구체적인 학습 과정 (Transition Matching)

TMD(Transition Matching Distillation)가 50단계를 줄이는 방법은 '따라쟁이 학습'입니다.

데이터 생성: 먼저 똑똑한 Teacher 모델에게 그림을 50번 고쳐서 그리게 시킵니다. (이때 시간이 엄청 걸립니다.)
패턴 분석: Student 모델은 Teacher가 "어떤 노이즈 상태( $t$ )에서 어떤 완성본( $x_0$ )으로 가려고 했는지" 그 의도(Trajectory)를 관찰합니다.
함수 압축: Student는 "이 정도 노이즈면 굳이 50번 안 거치고 이렇게 칠하면 바로 그 그림이 나오더라"는 맵핑 함수를 학습합니다.
결과: 나중에는 Teacher 없이도 Student 혼자서 입력만 보면 바로 결과물로 점프할 수 있게 됩니다.

3. 만능인가? (Trade-off)

세상에 공짜 점심은 없듯이 치명적인 단점도 존재합니다.

훈련 비용이 엄청남:
Student를 가르치려면 Teacher 모델을 먼저 엄청나게 돌려야 합니다. 만들 때는 전기가 엄청나게 듭니다. (하지만 한 번 만들면 서비스할 때는 쌉니다.)
품질 저하:
50번 꼼꼼히 붓질한 그림과, 한 번에 쓱 그린 그림이 완벽히 똑같을 순 없습니다. 디테일이 뭉개지거나, 복잡한 프롬프트(명령어)를 못 알아들을 수 있습니다.
- TMD는 이 품질 저하를 최소화해서 가성비를 극한으로 끌어올린 기술입니다.

창의성 한계:
Student는 Teacher가 하는 법을 흉내 낸 것이라, Teacher의 능력을 뛰어넘는 '청출어람'은 기본적으로 힘듭니다.

곽태욱

이유와 방법을 알려주는 메모장 겸 블로그 (Frontend, AI, 경제, 책)

이전 포스트

Engram: Conditional Memory via Scalable Lookup

다음 포스트