DiT vs U-Net: 이미지 생성 모델의 연산량과 효율성 역설

Bean·2026년 3월 17일

AI이미지생성 DiffusionTransformer Gemini StableDiffusion3 UNet dalle3 dit 생성형AI 스케일링법칙 인공지능트렌드

인공지능

목록 보기

160/184

요즘 쏟아져 나오는 AI 이미지 생성기들의 결과물을 보면 감탄이 절로 나옵니다. 그런데 이 화려한 이미지 뒤에서 어떤 기술적 세대 교체가 일어나고 있는지 아시나요?

오랫동안 이미지 생성 분야를 지배했던 왕좌의 주인이 U-Net에서 DiT(Diffusion Transformer)로 빠르게 넘어가고 있습니다. "트랜스포머 모델은 무거워서 연산량이 엄청나지 않나?"라고 생각하실 수 있지만, 여기에는 놀라운 반전이 숨어있습니다. 오늘은 DiT가 왜 U-Net을 밀어내고 대세가 되었는지, 그 이유를 연산량과 스케일링 법칙을 통해 명확히 파헤쳐 보겠습니다.

1. DiT vs U-Net: 트랜스포머는 정말 연산량 괴물일까?

256x256 해상도의 이미지를 생성할 때, 각 모델이 소모하는 연산량(Gflops)을 비교해 보면 흥미로운 사실을 알 수 있습니다.

픽셀 기반 U-Net (ADM): 약 1120 Gflops
- 픽셀 공간에서 직접 연산을 수행하기 때문에 엄청나게 무겁고 비효율적입니다.
잠재 공간 U-Net (LDM-4): 약 104 Gflops
- 데이터를 압축한 '잠재 공간(Latent Space)'을 사용하여 연산량을 획기적으로 줄였습니다.
가장 거대한 트랜스포머 (DiT-XL/2): 약 118.6 Gflops
- 논문에서 제안한 가장 크고 무거운 DiT 모델조차 픽셀 기반 U-Net 연산량의 10분의 1 수준에 불과합니다.

결론적으로 DiT는 무조건 무겁지 않습니다. DiT 역시 픽셀이 아닌 압축된 '잠재 공간'에서 연산을 수행하도록 설계되었기 때문입니다. 잠재 공간 U-Net과 비슷한 연산량을 가지면서도 기존 U-Net 모델들을 모두 뛰어넘는 압도적인 SOTA(최고 수준) 성능을 기록했습니다.

2. 스케일링 법칙(Scaling Law)과 '효율성 역설'

LLM(대형 언어 모델)에서 흔히 보던 '스케일링 법칙(모델 크기를 키울수록 성능이 좋아진다)'이 이미지 확산 모델에서도 그대로 성립합니다. 하지만 여기서 아주 흥미로운 '효율성의 역설'이 등장합니다.

"큰 모델이 오히려 연산을 더 효율적으로 사용한다."

학습의 효율성: 작은 DiT 모델을 오랫동안 쥐어짜듯 학습시키는 것보다, 아예 거대한 DiT 모델을 짧게 학습시키는 것이 전체 연산량 대비 성능(이미지 품질) 측면에서 훨씬 이득입니다.
추론의 한계: 태생적으로 모델 크기(연산량)가 작은 모델은, 나중에 이미지를 생성할 때 샘플링 스텝을 아무리 무한정 늘려도 큰 모델의 퀄리티를 따라잡을 수 없습니다.

즉, 트랜스포머(DiT) 구조는 무작정 자원을 잡아먹는 블랙홀이 아니라, 투입한 연산량만큼 아주 정직하고 확실하게 성능을 올려주는 '예측 가능한 구조'이기 때문에 각광받고 있는 것입니다.

3. 주요 AI 서비스들의 아키텍처 현황

그렇다면 우리가 흔히 쓰는 주요 AI 모델들은 현재 어떤 구조를 채택하고 있을까요?

ChatGPT (DALL-E 3): 여전히 U-Net 기반의 잠재 확산 모델 구조를 사용 중입니다. 대신 프롬프트 이해력을 높이기 위해 LLM을 강하게 결합했습니다. (단, OpenAI의 최신 동영상 모델 Sora는 DiT를 도입했습니다.)
Claude (Anthropic): 자체적인 이미지 전용 파운데이션 모델은 없으며, 외부의 강력한 모델(FLUX 등)을 연동하여 제공하는 방식을 취합니다.
Stable Diffusion 3, FLUX 등 최신 모델: 기존 U-Net을 버리고 DiT(MM-DiT) 기반으로 완전히 넘어왔습니다. 트랜스포머 특유의 확장성을 가장 적극적으로 활용 중입니다.
Gemini (구글): 현재 저는 'Gemini 3 Flash Image (공식 명칭: Nano Banana 2)'라는 최첨단 모델을 통해 이미지를 생성하고 편집합니다. 구글 역시 과거 Imagen 시절의 한계를 돌파하기 위해 DiT 기반 구조와 트랜스포머의 이점을 적극 수용하는 방향으로 빠르게 진화했습니다.

마치며

오랫동안 이미지 생성 AI를 책임졌던 U-Net의 공로는 크지만, 연산량을 투입할수록 정직하게 한계를 돌파하는 DiT(트랜스포머)의 매력은 압도적입니다. 확산 모델의 진화 속도는 앞으로도 우리의 상상을 뛰어넘을 것입니다. 지금 바로 최신 아키텍처가 적용된 AI에게 여러분의 상상력을 이미지로 그려달라고 요청해 보는 것은 어떨까요?

Bean

AI developer

이전 포스트

딥러닝 이미지 모델 완벽 비교: U-Net vs VAE, 무엇이 다를까?

다음 포스트