AI_Tech부스트캠프 week20...[5] Recent Applications in Diffusion Models(2)

Leejaegun·2025년 1월 11일

NaverAIBoostCamp

AI_tech_CV트랙 여정

목록 보기

74/74

8. Video Generation

Video generation involves the model's creation of a new video, with or without
specific conditions.

Why Video Generation is necessary?

Creativity and Art,
Education and Training,
Media and Entertainment

8.1 Video Diffusion Models

처음으로 diffusion model를 활용해서 만든 영상

3D U-Net을 활용한 Video Diffusion 모델 구조

Video Diffusion 모델에서는 3차원(시간 + 2차원 공간) 정보를 동시에 다룰 수 있는 3D U-Net 구조를 사용합니다. 이 아키텍처는 일반적인 이미지용 2D U-Net과 달리, 시간 축을 추가하여 영상(frame) 단위의 특징을 추출하고, 이를 공간(Height × Width) 정보와 함께 종합적으로 처리합니다.

핵심 아이디어

입력 텐서 구조
- 4차원 텐서: $T \times H \times W \times C$
- $T$ : 프레임(시간) 수
- $H, W$ : 영상의 높이와 너비(공간 차원)
- $C$ : 채널 수
Diffusion 모델의 입력
- $\mathbf{z}_t$ : 노이즈가 섞여 있는 영상(시점 $t$ 에서의 noisy video)
- $c$ : 조건(conditioning) 정보 (예: 클래스, 텍스트 등)
- $\lambda_t$ : log SNR(Signal-to-Noise Ratio)(신호 대 잡음비)
- 목표는 노이즈가 섞인 입력 $\mathbf{z}_t$ 를 깨끗한 영상 $\hat{x}_0$ 로 복원해 나가는 것
U-Net의 전체 구조
- 인코더(Downsampling) + 디코더(Upsampling) 구조
- 인코더: 영상의 공간 해상도를 단계적으로 절반씩 줄이면서 추상적인 특징을 추출
- 디코더: 낮아진 해상도를 다시 단계적으로 복원하며, 인코더에서 추출된 특징 지도(feature map)를 스킵 커넥션(skip connection)으로 전달받음
- 3D 블록으로 되어 있어, 시간 축(Temporal)과 공간 축(Spatial) 처리를 동시에 혹은 단계적으로 병렬/직렬 구성
- 각 Down/Up 블록마다 채널을 늘리거나 줄이는 채널 멀티플라이어 $M_1, M_2, \ldots, M_K$ 를 사용

공간-시간 분해(Spatial-Temporal Factorization)

3D U-Net은 공간 차원과 시간 차원을 별도로 혹은 병렬로 처리하기 위한 다양한 모듈을 포함할 수 있습니다:

Spatial 블록:
- 2D 커널(또는 3D 커널 중 공간 차원만 사용)을 사용해 영상의 $H \times W$ 차원을 주로 처리
- Down/Upsampling 시 해상도가 절반으로 축소/확장됨
Temporal 블록:
- 시간 축( $T$ )에 대한 1D 커널(또는 3D 커널 중 시간 차원만 사용)로 순차적 혹은 병렬적으로 특징 추출
- 영상 시퀀스의 연속성/동작 정보를 포착하기 위함

아키텍처 구현 시, 공간-시간 합성곱 연산(3D Conv)을 바로 적용하거나, 구조를 좀 더 factorized 형태(예: (2+1)D Conv로 분리)로 적용하기도 합니다.

Downsampling & Upsampling

Downsampling (인코더 부분)
- 입력된 텐서를 공간 차원에서 2배씩 축소
- 예: $(H \times W) \rightarrow \left(\frac{H}{2} \times \frac{W}{2}\right)$
- 채널 수는 멀티플라이어 $M_k$ 에 따라 늘어남
Upsampling (디코더 부분)
- Downsampling 단계에서 줄어든 해상도를 다시 키움
- 예: $\left(\frac{H}{2} \times \frac{W}{2}\right) \rightarrow (H \times W)$
- Skip Connection을 통해 인코더의 동일 단계 출력 특징과 결합(Concatenate)

채널 멀티플라이어(Channel Multipliers)

$M_1, M_2, \ldots, M_K$ :
- 각 Down/Up 블록마다 시작 채널 수의 배수를 결정
- 예: 초기 채널 수가 $C_0$ 라면, $k$ 번째 블록에서의 채널 수는 $C_0 \times M_k$
- 일반적으로 $M_k$ 는 낮은 해상도에서 더 많은 채널을 사용하여, 심도 있는 표현을 학습

모델 동작 과정

노이즈 섞인 영상 $\mathbf{z}_t$ 입력
- 시점 $t$ 에서의 noisy video를 $T \times H \times W \times C$ 형태로 입력
- 조건 벡터 $c$ , log SNR $\lambda_t$ 등 추가 정보도 함께 전달
인코더 (Downsampling) 단계
- $K$ 개의 Downsampling 블록으로 구성
- 각 블록에서 해상도를 절반으로 줄이고, 채널은 $M_k$ 비율로 증가
- 3D 합성곱과 Activation(예: ReLU, SiLU 등), Normalization(예: GroupNorm 등)을 반복 적용
- 마지막 Downsampling 블록의 해상도는 매우 작아지지만, 채널은 크게 증가
중간 Bottleneck (Temporal + Spatial)
- 가장 낮은 해상도에서 시공간적 특징을 심층적으로 변환
- 여러 Residual 블록 또는 Attention 메커니즘 등을 포함해, 전역 정보를 학습
디코더 (Upsampling) 단계
- Downsampling의 역순으로 진행
- 해상도를 2배씩 복원하면서, 해당 단계 인코더 특징을 Skip Connection을 통해 Concatenate
- 채널 수는 Downsampling과 반대로 줄어듦(멀티플라이어 역순 적용)
출력 $\hat{x}_0$
- 최종적으로 깨끗한 영상에 대한 예측값(또는 노이즈 예측)을 출력
- Diffusion 모델에서는 $\hat{x}_0$ 를 통해 역확산 과정을 거쳐 실제 영상 복원을 수행

예시 (간단한 의사 코드)

아래는 3D U-Net의 Down/Up 블록 구조를 간단히 나타낸 의사 코드입니다.

class Conv3DBlock(nn.Module):
    def __init__(self, in_ch, out_ch, kernel_size=3, stride=1, padding=1):
        super().__init__()
        self.conv = nn.Conv3d(in_ch, out_ch, kernel_size, stride, padding)
        self.norm = nn.GroupNorm(num_groups=8, num_channels=out_ch)
        self.act = nn.SiLU()  # 또는 ReLU, LeakyReLU 등
    def forward(self, x):
        return self.act(self.norm(self.conv(x)))

class DownBlock(nn.Module):
    def __init__(self, in_ch, out_ch):
        super().__init__()
        self.conv1 = Conv3DBlock(in_ch, out_ch)
        self.conv2 = Conv3DBlock(out_ch, out_ch)
        self.pool = nn.MaxPool3d(kernel_size=2)
    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x_down = self.pool(x)
        return x_down, x  # Skip 용도

class UpBlock(nn.Module):
    def __init__(self, in_ch, out_ch):
        super().__init__()
        self.up = nn.Upsample(scale_factor=2, mode='trilinear', align_corners=False)
        self.conv1 = Conv3DBlock(in_ch, out_ch)
        self.conv2 = Conv3DBlock(out_ch, out_ch)
    def forward(self, x, skip):
        x = self.up(x)
        # Skip connection (concat)
        x = torch.cat([x, skip], dim=1)
        x = self.conv1(x)
        x = self.conv2(x)
        return x

8.2 Video Probabilistic Diffusion Models in Projected Latent Space(PVDM)

이 모델은 동영상 데이터를 직접 3차원(시간 + 공간) 구조로 처리하기보다는,
3D→2D 형태로 투영한 잠재 공간(latent space)에서 Diffusion 모델을 수행함으로써
효율적인 학습과 생성 품질 향상을 목표로 합니다.

개념 요약

오토인코더 (Autoencoder) 구조
- 비디오 인코더를 통해, 원본 비디오 $X$ 를 3D 잠재 벡터로 변환
- 이 3D 잠재 벡터는 $T \times H \times W$ 차원을 유지한 채로, 채널 수만 축소된 형태
- 이후 프로젝션 네트워크 (Projection network)를 이용해,
  - 시간축,
  - 높이축,
  - 너비축
    각각을 기준으로 2D 형태로 투영한 뒤, 3개의 2D 잠재 벡터 $(\mathbf{z}^h, \mathbf{z}^w, \mathbf{z}^s)$ 를 얻음
- 비디오 디코더는 다시 이들 2D 잠재 벡터들을 3D 형태로 통합(역투영)하고,
  최종적으로 복원된 비디오 $\hat{\mathbf{X}}$ 를 출력
Diffusion 모델
- 오토인코더가 생성한 2D 잠재 벡터들에서, 실제 2D 이미지처럼 Diffusion 과정을 수행
- 시간 단계별로 노이즈를 추가하고 제거(denoising)하는 과정을 통해,
  - 노이즈 섞인 잠재 공간에서
  - 점진적으로 깨끗한 잠재 표현으로 복원
- 이때 Diffusion 모델 아키텍처는,
  - Downsample / Upsample 레지듀얼 블록,
  - Attention 레이어,
  - 기타 U-Net형 구조
    등을 활용해, 2D 이미지-like 구조에서 효과적으로 노이즈를 제거함
Projected Latent Space
- 3D 비디오 픽셀( $프레임 \times 높이 \times 너비$ )을
  3개의 2D 투영(예: $T \times H$ , $T \times W$ , $H \times W$ )으로 압축, 인코딩
- 이 2D 변환으로 인해,
  - 3D 합성곱을 다루는 복잡도가 줄어듦 (모델 파라미터 감소, 연산량 감소)
  - 기존의 2D Diffusion 모델 기법(예: 이미지용 Diffusion)을 재활용 가능
- 각각의 2D 투영을 독립적으로 Diffusion 처리하거나 합쳐서 한 번에 처리할 수도 있는 유연한 설계

상세 흐름

1. 원본 비디오 입력

$X \in \mathbb{R}^{S \times H \times W \times 3}$ (예시)
$S$ : 프레임 수 (Time), $H \times W$ : 공간 해상도, 채널 수(3)는 RGB

비디오 인코더
- 3D Convolution, 2+1D Convolution, 혹은 변형된 CNN/RNN 등으로 구성 가능
- 입력 비디오의 시공간 정보를 압축하여,
  3D 잠재 벡터 $\mathbf{Z}_{3D} \in \mathbb{R}^{C' \times T' \times H' \times W'}$ 를 생성
  - 여기서 $T'$ , $H'$ , $W'$ 는 축소된 시공간 해상도
  - $C'$ 는 잠재 표현에서의 채널 수
프로젝션 네트워크
- 3D 잠재 벡터 $\mathbf{Z}_{3D}$ 를 세 축 방향으로 각각 2D 투영
- 예시:
  - Height 축: $\mathbf{z}^h \in \mathbb{R}^{C_h \times T' \times W'}$
  - Width 축: $\mathbf{z}^w \in \mathbb{R}^{C_w \times T' \times H'}$
  - Spatial(또는 Temporal) 축: $\mathbf{z}^s \in \mathbb{R}^{C_s \times H' \times W'}$
- 이 과정을 통해, 3D 텐서를 3개의 2D 텐서로 분리해서 얻음
Diffusion 모델
- 각각의 2D 잠재 맵 $(\mathbf{z}^h, \mathbf{z}^w, \mathbf{z}^s)$ 에 대해 노이즈 추가→노이즈 제거 과정을 수행
- 2D U-Net 혹은 변형된 Diffusion 아키텍처로 단계별로 잠재 벡터를 정제(denoise)
- 결과적으로 노이즈가 제거된 2D 잠재 벡터를 얻음
- Diffusion 과정은 여러 타임스텝 $t$ 을 거치며 각 시점에서 노이즈 비율(예: $\text{SNR}_t$ )을 조절
비디오 디코더 (역투영 + 복원)
- Diffusion을 거쳐 깨끗해진 2D 잠재 벡터 $(\tilde{\mathbf{z}}^h, \tilde{\mathbf{z}}^w, \tilde{\mathbf{z}}^s)$
  → 다시 3D 형태로 결합 (역투영, 또는 3D 재구성)
- 최종적으로,
  - 비디오 디코더가 이를 입력받아,
  - 원본 해상도로 비디오 $\hat{\mathbf{X}}$ 를 재구성

요약

Projected Latent Video Diffusion Model (PVDM)은 비디오를 3차원 전체로 한 번에 다루는 대신, 3D 잠재 벡터를 2D 투영으로 변환하여 Diffusion을 수행함으로써,

연산량 절감,
2D Diffusion 노하우 활용,
시공간 일관성 유지
등의 이점을 얻는 모델입니다.

8.3 Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

Temporal Video Fine-Tuning

이 그림은 기존에 학습된 이미지 확산(Diffusion) 모델을 이용해 시간적으로 일관성 있는 동영상을 생성하는 과정을 보여줍니다.

좌측(Before temporal video fine-tuning):
- 사전에 학습된 이미지 확산 모델이 프레임 단위로 독립적인 샘플(이미지)을 생성
- 배치(batch) 내의 서로 다른 샘플(프레임)들이 시간적 연관성이 없이 독립적으로 생성되어, 영속적인 비디오 시퀀스를 이루지 못함
우측(After temporal video fine-tuning):
- Temporal Video Fine-Tuning 과정을 거쳐,
- 이전엔 독립적이던 배치 샘플들이 시간적으로 정렬(Aligned)되어,
- 연속적인 동영상 형태로 변환
- 즉, 배치의 각 요소가 연속 프레임처럼 연결되어 자연스러운 시퀀스를 형성

과정 요약

사전 학습된 이미지 Diffusion 모델 준비
- 일반 이미지 생성에 최적화된 이미지 모델
- 프레임 단위 샘플(정적 이미지)을 생성하는 데 특화
동영상 데이터에 대한 Fine-Tuning
- 사전 학습 모델을 “Temporal Video Fine-Tuning” 기법으로 재학습
- Fine-Tuning 시,
  - 인접 프레임 간 일관성(Temporal Consistency)을 학습하도록
  - 공동 분포를 맞추는 방향으로 모델을 조정
결과
- 독립적이었던 이미지 생성이 연속된 비디오 프레임 생성으로 전환
- 시간적 연결성(Temporal Alignment)을 확보해,
  - 동일한 대상이나 배경이 프레임마다 유지되는 등
  - 부드러운 동영상을 얻을 수 있음

그림 해석

좌측:
- “Generative Stochastic Processes per Frame/Batch Element”로 표시된 부분은
  각 프레임이 독립적으로 생성된다는 것을 의미
- 여러 샘플이 있더라도, 각각은 별개의 이미지로 취급되어,
  비디오처럼 이어지지 않음
중간:
- “Input Noise(for each Frame/Batch Element)”는 Diffusion 모델이 이미지별로 노이즈를 추가-제거하는 과정을 반복해 각 이미지(프레임)를 생성함
- 하지만 여전히 프레임 간 공유 정보나 시간적 상관 고려가 부족
우측:
- “Temporal Video Fine-Tuning”을 수행한 후,
  - 생성된 프레임들이 시퀀스 형태로 맞춰짐 (Align)
  - 스토캐스틱(확률적) 생성 과정이 프레임 간 시간적 연관성을 반영하여 일관성 있는 동영상 시퀀스를 만듦
- 실제로는 Latent Diffusion Model(LDM)의 잠재 공간에서 정렬을 수행하고 최종 디코더를 거쳐 픽셀 공간의 영상을 복원
- Fine-Tuning된 Diffusion 모델로,
  - 동영상에서 부드러운 전이,
  - 연속적 모션,
  - 장면 일관성을 유지하며 생성 가능

Temporal Video Fine-Tuning with Fixed Image Backbone

위 그림은 이미지 기반 확산 모델(LDM, Latent Diffusion Model)을 동영상으로 확장하기 위해,

공간(spatial) 처리를 담당하는 이미지 백본(Backbone) $\theta$ 와
시간(temporal) 처리를 담당하는 추가 레이어 $\phi$ 로 나누어 설계된 구조를 보여줍니다.

주요 아이디어

이미지 백본( $\theta$ ) 고정
- $\theta$ 는 사전에 학습된 LDM(이미지용 Diffusion 모델)의 파라미터
- 공간 해상도를 처리하는 역할
- Fine-Tuning(미세 조정) 단계에서는 갱신되지 않음 (고정된 상태로 유지)
- 이미 뛰어난 이미지 생성 능력을 갖춘 모델을 활용해, 시간 차원의 학습 비용을 줄임
시간 레이어( $\phi$ )만 학습
- 그림 속 녹색(temporal layer) 부분이 $\phi$
- 배치 $\times$ 시간 $\times$ 채널 $\times$ 높이 $\times$ 너비 형태의 입력( $\mathbf{z}\in\mathbb{R}^{B \cdot T \times C \times H \times W}$ )에 대해,
  시간 축(temporal dimension) 처리를 전담
- Fine-Tuning 동안 $\phi$ 만 학습(업데이트)
- 이를 통해 프레임 간 일관성(Temporal Consistency)을 확보
구조
- Spatial Layer:
  - $\theta$ 로 표시된 층
  - 기존의 이미지 기반 합성곱(혹은 UNet 블록 등)이 이 역할을 수행
  - 이미지 처리, 해상도 축소/확대, 채널 변환 등 수행
- Temporal Layer:
  - $\phi$ 로 표시된 층
  - RNN, 1D Conv(시간축), Attention, 혹은 맞춤형 레이어 등을 사용
  - 각 프레임 간 상호 작용을 학습해, 연속된 동영상으로 변환

학습 과정 개요

사전 학습된 LDM( $\theta$ ) 준비
- 고품질 이미지 생성을 가능케 하는 이미지 Diffusion 모델
- 공간 정보 처리에 특화
동영상 Fine-Tuning
- 별도의 Temporal Layer( $\phi$ )를 추가/삽입해 프레임들 사이의 시간적 연관성을 학습
- 이때 $\theta$ (이미지 백본)는 고정하고,
- $\phi$ (시간 레이어)만 업데이트
- 결과적으로 프레임마다 일관된 객체와 배경 정보, 모션을 유지하는 동영상을 생성
추론(Inference)
- 학습 후, 입력 노이즈(또는 조건)를 넣으면
- Spatial Layer( $\theta$ )가 이미지를 잘 처리하고,
- Temporal Layer( $\phi$ )가 프레임 간 자연스러운 연결성을 확보
- 최종적으로 시간적으로 일관성 있는 비디오를 출력

결론

이 구조에서는

이미 학습된 이미지 백본( $\theta$ )을 활용해 공간 정보를 처리하고
추가된 시간 레이어( $\phi$ )를 통해 프레임 간 연속성을 학습함으로써
시간적으로 일관성 있는 비디오를 생성할 수 있습니다.

Fine-Tuning 시에는 $\theta$ 는 고정하고, $\phi$ 만 업데이트하므로,

파라미터 효율적
이미지 모델의 이미 확보된 성능을 그대로 활용하며 동영상 생성 능력을 빠르게 습득하게 됩니다.

9. 2d to 3d

The goal of the 2d to 3d is to produce high quality 3d object from 2d image or 2d prior models
2D모델을 3D로 바꾸는 것은 다른 차원의 이야기인데!!

Why 2d to 3d is necessary?

3D 모델 학습에는 대규모 3D 데이터가 필요하지만, 실제로 3D 데이터는 부족하고 제작도 어렵습니다.
대신, 대규모 2D 데이터의 풍부한 정보를 활용하면 적은 3D 데이터로도 고품질 3D 생성을 수행할 수 있습니다.
이 방식은 한정된 3D 데이터 자원을 보완하고 대량의 3D 데이터를 확보하기 어려운 문제를 해결합니다.

9.1 DreamFusion: Text-to-3D using 2D Diffusion

배경 (Background)

NeRF (Neural Radiance Fields)
- 3D 공간 상의 물체·장면을 2D 영상들을 통해 표현하는 모델
- 서로 다른 카메라 각도·시점에서 촬영된 다수의 이미지를 입력으로 받아,
  밀도(density) 및 색깔(color)에 대한 방사율(radiance) 함수를 학습
- 학습이 끝나면, 아무 각도에서든 해당 장면을 렌더링(rendering) 가능

Diffusion Models and Score Distillation Sampling

DreamFusion은 텍스트에서 3D 장면을 생성하기 위해, 2D Diffusion 모델(예: Imagen)을 활용합니다.
이 과정에서 Score Distillation Sampling (SDS) 기법을 사용하여,
NeRF와 같은 3D 표현(예: $x = g(\theta)$ )의 파라미터를 효율적으로 업데이트합니다.

1. 기본 수식: $\mathcal{L}_{\text{diff}}(\phi, x)$

우선 2D Diffusion 모델에서 사용하는 일반적인 손실(단계 $t$ 에서 노이즈 제거를 학습하는 목적)
$\mathcal{L}_{\text{diff}}(\phi, x)$ 는 다음처럼 표현할 수 있습니다.

\mathcal{L}_{\text{diff}}(\phi, x) = \mathbb{E}_{t \sim \mathcal{U}(0,1), \,\epsilon \sim \mathcal{N}(0,\mathbf{I})} \Big[ \,w(t)\,\big\|\alpha_t\,x + \sigma_t\,\epsilon - \epsilon_{\phi}(z_t; y, t)\big\|_2^2 \Big].

$\epsilon_{\phi}$ : Diffusion 모델(예: U-Net)에서 예측한 노이즈
$x$ : 실제 데이터(또는 생성하고자 하는 이미지)
$t$ : Diffusion 타임스텝(0에서 1 사이)
$\alpha_t, \sigma_t$ : 일정(schedule)에 따른 스케일 파라미터
$w(t)$ : 가중치 함수 (타임스텝마다 달라질 수 있음)
$z_t$ : 시점 $t$ 에서 노이즈가 섞인 상태의 샘플
$y$ : 텍스트 등 조건(conditional) 정보

1.1 파라미터 업데이트 식

이때, $x = g(\theta)$ 라고 두면(예: 3D 표현에서 렌더링한 이미지를 $x$ 로 봄),
Diffusion 모델의 노이즈 예측 결과를 기준으로 $\theta$ 에 대해 역전파가 일어납니다.

\nabla_{\theta}\,\mathcal{L}_{\text{diff}}(\phi,\;x = g(\theta)) \;=\; \mathbb{E}_{t,\epsilon} \Big[ \,w(t)\,\big(\hat{\epsilon}_{\phi}(z_t;\;y,\;t)\;-\;\epsilon\big) \;\underbrace{\frac{\partial\,\hat{\epsilon}_{\phi}(z_t;\;y,\;t)}{\partial\,z_t}}_{\text{U-Net Jacobian}} \;\underbrace{\frac{\partial\,x}{\partial\,\theta}}_{\text{Generator Jacobian}} \Big].

Noise Residual: $w(t),\big(\hat{\epsilon}_{\phi}(z_t;;y,;t) - \epsilon\big)$
U-Net Jacobian: $\frac{\partial,\hat{\epsilon}_{\phi}}{\partial,z_t}$
Generator Jacobian: $\frac{\partial,x}{\partial,\theta}$ , 여기서 $x = g(\theta)$

우측에서 U-Net(또는 Diffusion 모델) 쪽의 Jacobian( $\frac{\delta \epsilon_\phi}{\delta \phi}$ )을 생략(omit)하여 파라미터 $\theta$ 쪽으로만 미분이 이어지도록 하는 것이 Score Distillation Sampling (SDS)의 핵심 아이디어 중 하나입니다.

2. Score Distillation Sampling (SDS)

DreamFusion에서는 $\mathcal{L}_{\text{SDS}}$ 라는 손실을 정의해 NeRF(또는 3D MLP)의 파라미터 $\theta$ 가 2D Diffusion 모델이 예측한 노이즈와 실제 노이즈의 차이를 줄이도록 학습시킵니다.

2.1 정의

\nabla_{\theta} \,\mathcal{L}_{\text{SDS}}(\phi,\;x=g(\theta)) \;:=\; \nabla_{\theta}\,\mathbb{E}_{t,\epsilon}\Big[ \,w(t)\,\big(\epsilon_{\phi}(z_t; y,t) - \epsilon\big)\,\frac{\delta x}{\delta \theta} \Big].

이는 $\mathcal{L}_{\text{diff}}$ 의 업데이트 식에서 U-Net( $\phi$ )의 Jacobian 항을 생략한 형태로 볼 수 있습니다.
결과적으로, 2D Diffusion 모델에서 얻은 노이즈 예측 오차만으로 3D 파라미터( $\theta$ )가 직접 업데이트됩니다.
논문/코드에 따라 추가적으로 KL 항이나 $\sigma_t / \alpha_t$ 등 정규화 항이 포함되기도 합니다.
예시 형태: $\nabla_{\theta} \,\mathcal{L}_{\text{SDS}}(\phi,\,x=g(\theta)) = \nabla_{\theta}\,\mathbb{E}_{t,\epsilon}\Big[ \tfrac{\sigma_t}{\alpha_t}\,w(t)\,\mathrm{KL}\big(q(z_t \mid g(\theta)) \;\|\; p_\phi(z_t \mid y,t)\big) \Big].$

3. DIP(Differentiable Image Parameterization)와 연결

DreamFusion에서 $x = g(\theta)$ 는 NeRF처럼 3D를 파라미터화한 MLP를 통해 랜덤 시점에서 렌더링한 2D 이미지입니다.
SDS는 렌더링된 이미지가 텍스트 조건에 부합하도록 Diffusion 모델(예: Imagen)의 노이즈 예측을 이용해 MLP( $\theta$ )를 업데이트합니다.
즉, 픽셀 단위가 아니라, 랜덤 각도로 렌더링된 영상 단위로 학습이 진행되어, 3D 구조(NeRF)가 텍스트에 맞게 최적화됩니다.

4. Ancestral Sampling vs. Score Distillation Sampling

Ancestral Sampling:
- 일반적인 Diffusion 과정에서, 픽셀(또는 잠재 공간) 단계에서 점진적으로 샘플을 업데이트
- 최종적으로 이미지를 샘플링
Score Distillation Sampling (SDS):
- NeRF(또는 3D) 파라미터 공간 $\theta$ 에서 SGD/역전파를 통해 업데이트
- Diffusion 모델 자체의 파라미터는 고정 (이미 학습된 상태)
- U-Net Jacobian을 무시함으로써,
  - NeRF 파라미터가 Diffusion 모델의 노이즈 예측 스코어만 보고 직접 학습

요약

$\mathcal{L}_{\text{diff}}$ : 2D Diffusion 손실 정의
$\mathcal{L}_{\text{SDS}}$ : 그 손실에서 U-Net Jacobian을 제외하여 NeRF 같은 3D 모델 파라미터에만 직접 역전파
DreamFusion:
- 텍스트 조건을 갖춘 2D Diffusion(Imagen)을 활용
- 랜덤 카메라로 3D 모델을 렌더링 → 2D Diffusion 노이즈 예측으로 손실 계산 → 3D 파라미터 업데이트
- 결과적으로 고품질 3D 장면을 텍스트에서 생성 가능

이로써 DreamFusion은 픽셀 대신 랜덤 시점을 통해 3D 모델(NeRF)을 최적화하는 Score Distillation Sampling 방식을 구현합니다.

DreamFusion Algorithm

NeRF 측(왼쪽)
- Density( $\tau$ ), Albedo( $\rho$ ), Normals( $n$ ) 등을 출력하는 MLP
- 이를 기반으로 조명(빛, $P(\text{light})$ ), 카메라( $P(\text{camera})$ )를 적용해 2D 렌더링 결과(이미지) 생성
Diffusion 측(오른쪽)
- Imagen(Text-to-Image Diffusion) 모델이 노이즈가 섞인 상태의 이미지 $z_t$ 를 텍스트(“a DSLR photo of a peacock on a surfboard”) 조건으로 노이즈 제거(denoise)
- 노이즈 예측치 $\hat{\epsilon}_\phi(z_t \mid y; t)$ 를 토대로 SDS Loss( $\mathcal{L}_\text{SDS}$ )를 계산
- 이 손실을 NeRF 파라미터에 역전파(Backpropagate)하여 NeRF가 텍스트 조건에 맞게 렌더링을 수정하도록 학습
최종 결과
- NeRF는 텍스트에 부합하는 3D 장면(예: 공작이 서핑보드 위에 있는 모습)을 표현
- 학습 완료 후, 아무 시점에서나 고해상도 3D 렌더링을 얻을 수 있음

요약

NeRF: 3D를 표현하는 강력한 방법, 하지만 텍스트 제어가 직접적으로 어려움
DreamFusion:
- 기존 Text-to-Image Diffusion(Imagen)의 생성 능력과
- NeRF의 3D 표현력을 결합
- SDS Loss를 통해, 2D 확산 모델의 노이즈 예측 정보를 네트워크(NeRF)에 역전파하여 3D를 학습
결과적으로, 텍스트만으로도 3D 모델(NeRF)을 생성·제어 가능
- 수많은 시점에서 일관성 있는 영상 (view synthesis) 확보
- 3D 데이터 없이도(또는 아주 적게 사용하면서) 고품질의 3D를 만들 수 있음

9.2 zero-1-to-3: zero-shot one image to 3d object

DreamFusion의 해상도 및 속도 이슈

DreamFusion은 텍스트→3D 생성에서 고해상도(예: 256×256 이상)로 직접 최적화를 진행하면 연산량이 매우 많아 속도가 극도로 느려지는 문제가 있습니다.
이를 해결하기 위해 64 해상도 수준으로 실험을 진행하며 이때도 약 1.5시간 정도의 학습 시간이 소요됩니다.
- 이는 실제 응용 환경에서 더 빠른 3D 생성이 필요함을 보여주므로,
  학습 가속화를 위한 연구가 중요합니다.

배경

Stable Diffusion 등의 대규모 확산 모델을 미세조정(Fine-tuning)하여 카메라 시점(Camera Viewpoint)을 제어하는 기법을 연구
이를 통해, 이미지를 학습된 모델로 인코딩한 뒤,
임의의 카메라 시점(원하는 각도)에서 디코딩 → 새로운 뷰를 생성
나아가, 제로샷(Zero-Shot)으로도 다양한 실제 이미지(“in-the-wild”)에 적용 가능

View-conditioned Diffusion

개요

Stable Diffusion만으로는 카메라 시점(Viewpoint)을 다양하게 제어하기 어려움
따라서 사전 학습된 Diffusion 모델을 이미지 쌍과 카메라 외부 파라미터(extrinsic) 정보인 $\{(x, x_{(R,T)}) \;|\; R,T \}$ 를 이용해 미세 조정(Finetuning)
이를 통해 모델이 카메라 회전(Rotation), 이동(Translation)과 같은 시점 변환 기법을 학습하게 됨

카메라 외부 파라미터

$R$ : 상대 카메라 회전(Relative camera rotation)
$T$ : 카메라 이동(Translation), 즉 원하는 시점/좌표로의 이동량

수식

미세 조정된 모델(예: $\epsilon_\theta$ )은
입력 이미지 $x$ 와 시점 변환 정보 $(R,T)$ 를 조건( $c(\cdot)$ )으로 사용합니다.
Diffusion 과정에서,

노이즈 $\epsilon \sim \mathcal{N}(0,\mathbf{I})$ ,
시간 스텝 $t \sim \mathcal{U}(0,1)$ ,
랜덤 변수 $z_t$ (해당 시점에서 노이즈가 섞인 상태),
을 통해 다음과 같은 목표 함수를 최소화합니다.

\min_{\theta} \;\; \mathbb{E}_{z \sim \mathcal{E}(x),\,t,\,\epsilon \sim \mathcal{N}(0,\mathbf{I})} \Big\| \,\epsilon \;-\; \epsilon_{\theta}\bigl(z_t,\;t,\;c\bigl(x,\;R,\;T\bigr)\bigr) \Big\|_{2}^{2}.

$\mathcal{E}(x)$ : 입력 이미지 $ x $에서 유도되는(또는 렌더링·주사) 잠재 샘플
$\epsilon_{\theta}(\cdot)$ : 미세 조정된 Diffusion U-Net이 노이즈를 예측하는 함수
$c\bigl(x, R, T\bigr)$ :
- 조건(Condition)으로써,
- 원본 이미지 $x$ 와 카메라 변환 정보 $(R, T)$ 를 결합한 것
- 모델이 “원본 이미지를 $R, T$ 로 변환한 시점의 뷰”를 생성하도록 유도

작동 방식 (개념 흐름)

입력 뷰 (RGB)
- 원본 이미지 $x$ (예: 어떤 사물의 단일 시점 사진)
카메라 변환 정보 $(R, T)$
- 원하는 새 시점(회전 + 이동)에 해당
- 예: “이 사물을 45도 회전, 오른쪽으로 약간 이동한 시점으로 보고 싶다”
Zero-1-to-3 Latent Diffusion Model
- 초기 노이즈 $\sim \mathcal{N}(0,\mathbf{I})$ 에서 시작
- 점진적으로 노이즈를 제거하면서 출력 뷰를 생성
- 이때 조건으로 $(x, R, T)$ 를 사용하여,
  원본 이미지가 $R,T$ 시점으로 변환된 결과를 출력
Output View (RGB)
- 새 시점에서 각도가 달라진 2D 이미지(또는 나아가 3D 형태)
- Novel View Synthesis: 단일 시점 이미지만 갖고도,
  미세 조정된 모델이 새로운 시점을 합성

3D Reconstruction in Zero-1-to-3

이 그림은 단일 이미지(예: 체어 사진)로부터, 상대 카메라 회전( $R$ )과 이동( $T$ )을 통해
새로운 시점에서 볼 수 있는 3D 재구성을 수행하는 과정을 보여줍니다.

개요

입력 View + (R, T)
- 원본 이미지를 입력으로 받고,
- 원하는 시점(회전 $R$ , 이동 $T$ ) 정보를 같이 전달
Zero-1-to-3 모델
- 뷰 변환(상대 시점 변환)을 고려하여,
- Volumetric Rendering을 수행하거나 Neural Field(3D 표현)를 업데이트
렌더링된 결과
- 입력 뷰와 비교하여 Loss를 계산 (예: $\mathcal{L}_{\text{MSE}}$ 등)
- Neural Field(또는 3D 표현)의 파라미터를 점진적으로 개선
최종 3D 재구성
- 다양한 카메라 각도에서 렌더링 가능한 3D 객체를 얻음

등장하는 Loss: $\nabla \mathcal{L}_{SJC} = \nabla_{I_\pi}\,\log\,p_{\sqrt{2}\,\epsilon}(x_\pi)$

1. 기호 설명

$\mathcal{L}_{\text{SJC}}$ :
- 여기서 “SJC”는 Score-based Joint Consistency 등으로 불릴 수 있음(논문 용어에 따라 다름).
- 새로운 시점으로 렌더링한 결과 $x_{\pi}$ 에 대해 확률 분포(또는 Score) 관점에서 일관성을 맞추는 손실을 나타냄.
$I_{\pi}$ :
- 시점(카메라 파라미터) $\pi$ 에서 렌더링된 이미지(또는 해당 표현)
$p_{\sqrt{2}\,\epsilon}(x_\pi)$ :
- $x_\pi$ 가 노이즈 수준 $\sqrt{2}\,\epsilon$ 에서 따르는 분포를 의미하거나,
- Score 기반의 확률 모델(논문에 따라 미세하게 정의가 다를 수 있음)
$\nabla_{I_\pi}$ :
- 이미지(또는 렌더링 결과) $I_\pi$ 에 대한 편미분(Gradient)
- 이를 통해 Neural Field 혹은 Volumetric Rendering 파라미터에 역전파할 수 있게 됨

2. 해석

\nabla \mathcal{L}_{SJC} = \nabla_{I_\pi} \,\log\,p_{\sqrt{2}\,\epsilon}\bigl(x_\pi\bigr).

$\log p_{\cdot}(\cdot)$ 형태이므로 확률 분포의 로그 우도(Log-likelihood)에 대한 Gradient
3D 형태(Neural Field)에서 시점 $\pi$ 로 렌더링된 2D 이미지 $x_\pi$ 가 특정 분포/score에 부합하도록 업데이트함
결과적으로 3D 표현이 “정해진 뷰”에서 타당한 이미지를 생성하도록 파라미터가 학습됨

요약

Zero-1-to-3는 단일 입력 이미지만으로도 원하는 카메라 시점(회전 $R$ , 이동 $T$ )에서의 새로운 뷰를 생성하는 기법입니다. 이를 위해 Stable Diffusion 기반 모델에 카메라 외부 파라미터를 조건으로 주어 미세 조정을 수행합니다. 그 결과, 모델은 노이즈 예측 에러 $\|\epsilon - \epsilon_{\theta}\|_2^2$ 를 최소화하며, 카메라 변환을 반영해 일관성 있는 새 시점 이미지를 생성할 수 있게 됩니다.

구체적으로는,

1. Volumetric Rendering을 통해 Neural Field(3D MLP)가 예측한 밀도/색 정보를 (R, T) 시점으로 2D 이미지로 렌더링하고,
1. 이에 대해 $\nabla \mathcal{L}_{\text{MSE}}$ , $\nabla \mathcal{L}_{SJC}$ 등 다양한 손실을 계산하여 모델을 업데이트합니다.
1. 이렇게 다양한 시점으로 반복 학습함으로써, 최종적으로 3D 객체가 실제 시점 변환과 일관성을 지니도록 학습됩니다.

즉, Zero-1-to-3는 하나의 입력 이미지( $x$ )와 원하는 시점 정보( $R, T$ )만 주어져도 Zero-shot Novel View를 만들 수 있으며 Neural Field(볼류메트릭 표현)가 시점 변환된 이미지를 합리적으로 생성하도록 Score 기반 손실( $\mathcal{L}_{SJC}$ 등)을 통해 핵심 파라미터를 업데이트한다는 점이 특징입니다.

9.3 Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models

이 방법은 소수(혹은 단일)의 2D 이미지 뷰로부터 일관성 있는 3D 뷰를 생성하기 위해,

SRT(Set-Latent Representation + Ray-based Rendering)
View-conditioned Diffusion
두 가지 아이디어를 결합한 프레임워크입니다.

전체 파이프라인 요약

입력 뷰:
- 하나 혹은 소수의 이미지를 입력으로 받음 (예: 스쿠터 이미지를 다양한 각도에서 몇 장만 찍은 경우)
SRT Encoder:
- 입력 이미지 $x^{\text{source}}$ 와 해당 카메라 매개변수(포즈) $\pi^{\text{source}}$ 를 카메라 인코딩 함수 $f_c$ 로 먼저 처리한 뒤,
- 장면 임베딩(세트-잠재 표현, $z$ )을 생성
  $z = f_e\bigl(f_c(x^{\text{source}},\,\pi^{\text{source}})\bigr).$
SRT Decoder:
- 새로운 시점 쿼리(광선) $r = (o,d)$ 를 입력받아,
- $z$ (장면 임베딩)와 결합해 픽셀 색 $\hat{C}(r)$ 를 예측
- $\hat{C}(r) = f_d\bigl(r,\,z\bigr)$
Denoising U-Net (Diffusion 모델):
- SRT Decoder 출력(또는 중간 결과)와 결합해 노이즈 제거(U-Net) 과정을 수행
- 최종적으로 노이즈가 제거된(Denoised) 이미지를 출력

주요 구성 요소 및 Loss

1. SRT Training Loss ( $\mathcal{L}_{\text{recon}}$ )

SRT 자체를 학습할 때는, 주어진 레이(rays) 집합 $\mathcal{R}$ 에 대해 예측 색 $\hat{C}(r)$ 와 실제 색 $C(r)$ 의 차이를 최소화합니다.

\mathcal{L}_{\text{recon}} = \sum_{r \in \mathcal{R}} \|\;C(r) \;-\; \hat{C}(r)\;\|_{2}^{2}.

$C(r)$ : 실제(또는 Ground Truth)로 관측된 광선 $r$ 의 컬러
$\hat{C}(r) = f_d(r,z)$ : SRT Decoder가 예측한 컬러

이를 통해 Neural Field가 시점 $r$ 에 따라 적절한 색상을 복원하도록 학습됩니다.

2. Diffusion Training Loss ( $\mathcal{L}_{\text{diffusion}}$ )

SRT 출력(또는 중간 결과)을 Diffusion 모델에서 노이즈 제거하도록 학습할 때 사용합니다.
타임스텝 $t$ , 노이즈 $\epsilon \sim \mathcal{N}(0, \mathbf{I})$ 등에 대해
노이즈 예측 에러를 최소화합니다:

\mathcal{L}_{\text{diffusion}} = \mathbb{E} \Big[ \big\|\;\epsilon_{t} \;-\; \epsilon_{\theta}\bigl(y,\;\tilde{x}_{t}^{\text{target}},\;z,\;t\bigr)\big\|_{2}^{2} \Big].

$\epsilon_{\theta}(\cdot)$ : Diffusion U-Net이 예측하는 노이즈
$y$ : 텍스트 조건 또는 추가적인 뷰 조건(있다면)
$\tilde{x}_{t}^{\text{target}}$ : 시점 변환된 이미지(노이즈가 섞인 상태)
$z$ : 앞서 SRT를 통해 얻은 장면 임베딩
이 손실을 통해 U-Net이 시점별 노이즈를 올바르게 제거하고 결과 이미지를 일관성 있게 복원하게 됩니다.

상세 흐름

입력 이미지를 SRT Encoder로 처리
- 여러 장의 2D 이미지를 카메라 포즈와 함께 인코딩 → 공통 장면 임베딩 $z$
SRT Decoder로 새로운 시점 $r$ 에 대한 색상 $\hat{C}(r)$ 추론
- 광선(ray) 단위로 질의(쿼리)하는 구조
- 여기서 Epipolar Attention 같은 메커니즘을 사용해,
  레이 간 기하학적 연관성(에피폴라 기하)을 반영
Diffusion U-Net
- SRT Decoder가 예측한 부분 또는 중간 결과 이미지를 받아,
- 노이즈 제거 과정을 수행 → 결과 이미지를 더욱 정교화
최종 출력
- Denoised Outputs:
  합성된 새로운 시점 이미지가 깨끗하게 복원됨
- 다양한 각도에서 일관성 있게 보기 가능

요약

SRT(Set Representation + Ray-based Decoder)
- 적은 수의 입력 뷰로부터,
- 장면 임베딩 $z$ 를 학습해 다양한 시점으로 색상 예측을 수행
View-conditioned Diffusion 모델
- SRT의 중간 결과를 노이즈 제거하면서
- 고품질로 기하학적 일관성(Geometry-aware)을 유지하는 출력을 생성
$\mathcal{L}_{\text{recon}}$ : Ray별 색상 재현성
$\mathcal{L}_{\text{diffusion}}$ : 시점 변환된 이미지에 대한 노이즈 제거 학습
결과적으로, 단일/소수 뷰만으로도 3D 장면을 일관성 있게 렌더링하고 Diffusion으로 세부 품질까지 높이는 Consistent 1-to-3 파이프라인을 구현합니다.

10. Image Restoration

Image degradation encompasses various factors that introduce imperfections to the original image, including Noise, Blur, JPEG compression, Color Distortion, and more.

Why Image Restoration is necessary?

Image restoration can be used to enhance them back to their original quality.
• Legal Evidence and Investigation: In criminal investigations or case inquiries, damaged images can be restored to secure and analyze crucial evidence

10.1 Cascaded Diffusion Models for High Fidelity Image Generation

Diffusion모델을 활용하여 resolution 을 한 모델

Method

이 연구에서는 Diffusion Model을 이용해 저해상도에서 고해상도로 점진적으로 이미지를 생성하는 계단식(또는 단계적) 이미지 생성 방법을 제안한다. 구체적으로 다음과 같은 단계를 거친다.

저해상도(Class-Conditional) 이미지 생성
- 먼저, 클래스 정보(예: 강아지, 치즈버거 등)를 조건으로 하는 Diffusion Model을 사용해 $32 \times 32$ 크기의 이미지를 생성한다.
- 이때 모델은 ‘어떤 클래스에 속하는 이미지인지’를 조건으로 받아 학습되어, 해당 클래스에 맞는 저해상도 이미지를 샘플링한다.
첫 번째 초해상화(Super-Resolution) 단계
- 생성된 $32 \times 32$ 이미지를 입력으로 받고, 동일한 클래스 정보를 함께 사용하는 초해상화 Diffusion Model을 통해 $64 \times 64$ 크기의 이미지로 해상도를 올린다.
- 이 모델 또한 클래스 정보를 사용하기 때문에, 단순히 픽셀 해상도만 높이는 것이 아니라 해당 클래스에 더 적합한 디테일을 보강한다.
두 번째 초해상화(Super-Resolution) 단계
- 앞 단계에서 생성된 $64 \times 64$ 이미지를 입력으로 다시 한 번 클래스 정보를 조건으로 하는 초해상화 Diffusion Model을 이용한다.
- 여기서 최종적으로 $256 \times 256$ 또는 그 이상의 목표 해상도까지 이미지 해상도를 높인다.

요약

클래스 정보를 조건으로 한 Diffusion Model로 저해상도 이미지를 먼저 생성한다.
이후 해상도를 점진적으로 높이는 초해상화 Diffusion Model들을 순차적으로 거치면서 고해상도 이미지를 얻는다.
이런 계단식 접근을 통해, 한 번에 고해상도를 직접 생성하는 것보다 안정적이고 세밀한 이미지를 생성할 수 있다.

motivation :
in the real world, many issues involve damage or problems that are not initially known or understood.

이 논문은 Blind Image Restoration 문제를 다룬다.
Blind Image Restoration이란, 이미지에 어떤 형태의 열화(노이즈, 블러, 저해상도 등)가 발생했는지 명시적으로 알지 못하는 상태에서 원본 이미지를 복원하는 과정을 말한다.

전체 구조 요약

모델은 크게 Stage 1과 Stage 2로 나뉜다.

Stage 1: SwinIR을 통한 초기 복원
- 입력으로 저해상도이자 열화가 심한 이미지 $I_{L_{0}}$ 가 들어온다.
- SwinIR 기반 Restoration Module을 통해 노이즈, 블러 등을 1차적으로 제거하여 비교적 깔끔한 중간 복원 이미지 $I_{\text{reg}}$ 를 얻는다.
Stage 2: Stable Diffusion을 통한 최종 복원
- $I_{\text{reg}}$ 이미지를 Diffusion Model의 입력으로 사용한다.
- 우선 Encoder $\mathcal{E}$ 를 통해 $I_{\text{reg}}$ 를 잠재 벡터 $z_{t}$ 로 변환한다.
- Denoiser(Stable Diffusion)와 Parallel Module이 협력하여 반복적으로 $z_{t-1} \to z_{t-2} \to \cdots \to z_{0}$ 과정을 거치며 열화 요소를 제거하고, 정교한 디테일을 복원한다.
- 마지막으로 Decoder $D$ 를 통해 $z_{0}$ 를 최종 복원 이미지 $I_{\text{diff}}$ 로 디코딩한다.

세부 단계

Stage 1: SwinIR 복원 모듈

입력 이미지 $I_{L_{0}}$ 는 노이즈, 블러 등으로 심각하게 열화되어 있다.
SwinIR 기반 복원 모듈은 기존에 제안된 Vision Transformer 구조(Swin Transformer)를 활용하여,
- 저해상도 이미지의 특징을 추출하고
- 업샘플링과 함께 노이즈, 블러 등을 제거하면서
- $I_{\text{reg}}$ 라는 중간 수준 해상도의 이미지를 생성한다.

Stage 2: Stable Diffusion

중간 복원 이미지 $I_{\text{reg}}$ 를 Encoder $\mathcal{E}$ 를 통해 잠재 공간으로 보낸다.
- 여기서 얻어진 잠재 벡터 $z_{t}$ 는 Diffusion 과정에서 반복적으로 변형된다.
Denoiser는 각 시간 스텝별로 노이즈를 제거하고, Parallel Module을 통해 초기화 및 추가 정보를 제공받아 복원을 향상시킨다.
반복된 노이즈 제거 과정을 거쳐 최종 잠재 벡터 $z_{0}$ 를 획득한다.
Decoder $D$ 를 통해 $z_{0}$ 가 다시 이미지 공간으로 변환되어 최종 복원된 이미지 $I_{\text{diff}}$ 를 얻는다.

결론

Stage 1에서 SwinIR로 간단한 열화 요소를 먼저 제거하고,
Stage 2에서 Stable Diffusion 기반 Denoiser로 복잡한 열화까지 정교하게 제거하면서
결과적으로 고품질 이미지를 복원해낸다.

이 과정을 통해, 기존 Blind Image Restoration 기법보다 풍부한 디테일과 높은 시각적 품질을 달성할 수 있다.

🤔SwinIR(ImageRestoration)은 무엇인가?

SwinIR은 크게 세 가지 모듈로 구성된다:
1) Shallow Feature Extraction
2) Deep Feature Extraction
3) High-Quality (HQ) Image Reconstruction

우리는 모든 복원(task)에서 동일한 특성 추출 모듈(Shallow/Deep Feature Extraction)을 사용하지만,
복원 유형(초해상화, 노이즈 제거 등)에 따라 다른 Reconstruction 모듈을 사용한다.

Shallow and Deep Feature Extraction

입력
- 저화질(LQ) 입력 $I_{\text{LQ}} \in \mathbb{R}^{H \times W \times C_{\text{in}}}$ 이 주어진다. (여기서 $H$ , $W$ , $C_{\text{in}}$ 은 각각 영상의 높이, 폭, 채널 수를 의미)
Shallow Feature Extraction
- 먼저 $3 \times 3$ 컨볼루션 레이어 $H_{\text{SF}}(\cdot)$ 을 이용해 얕은 특성(shallow feature) $F_0 \in \mathbb{R}^{H \times W \times C}$ 를 추출한다.
- 이는 다음과 같이 표현된다. $F_0 = H_{\text{SF}}(I_{\text{LQ}}),$ 여기서 $C$ 는 특성(feature) 채널 수이다.
- 초기 단계에서 컨볼루션 레이어를 사용하는 것은 시각적 특성 추출에 유리하며, 입력 이미지 공간을 고차원 특성 공간으로 매핑할 수 있는 단순한 방법을 제공한다.
Deep Feature Extraction
- 이어서, $F_0$ 로부터 깊은 특성 $F_{\text{DF}} \in \mathbb{R}^{H \times W \times C}$ 를 추출한다.
- 이 과정은 $K$ 개의 Residual Swin Transformer Block(RSTB)과 하나의 $3 \times 3$ 컨볼루션 레이어로 구성된 모듈 $H_{\text{DF}}(\cdot)$ 을 통해 이루어지며, $F_{\text{DF}} = H_{\text{DF}}(F_0).$
- 구체적으로, $F_i = H_{\text{RSTB}_i}(F_{i-1}), \quad i = 1,2,\ldots,K,$ 로 중간 특성 $F_1, F_2, \ldots, F_K$ 를 거쳐, $F_{\text{DF}} = H_{\text{CONV}}(F_K),$ 로 최종 깊은 특성을 얻게 된다.
- 마지막에 컨볼루션 레이어( $H_{\text{CONV}}$ )를 배치해 두어, Transformer 기반 네트워크에 컨볼루션의 Inductive Bias를 도입함으로써 특성 융합을 강화한다.

Image Reconstruction

초해상도(Super-Resolution) 예시
- 얕은 특성 $F_0$ 와 깊은 특성 $F_{\text{DF}}$ 를 합하여 고화질(HQ) 영상 $I_{\text{RHQ}}$ 를 재구성한다. $I_{\text{RHQ}} = H_{\text{REC}}(F_0 + F_{\text{DF}}),$ 여기서 $H_{\text{REC}}(\cdot)$ 은 재구성 모듈이다.
- 얕은 특성은 주로 저주파(low-frequency) 성분을, 깊은 특성은 고주파(high-frequency) 성분을 담당한다.
- 롱 스킵 커넥션(long skip connection)으로 인해, 저주파 정보( $F_0$ )가 직접 재구성 모듈로 전달되어 고주파 정보 복원에 집중할 수 있도록 돕고, 학습 안정성도 높인다.
- 초해상도 작업 시에는 Sub-pixel Convolution Layer를 사용해 업샘플링을 수행한다.
노이즈 제거, JPEG 압축 제거 등
- 업샘플링이 필요 없는 복원 작업에서는 단일 컨볼루션 레이어만으로 이미지를 복원한다.
- 또한, LQ 이미지와 복원 이미지의 잔차(residual)만을 재구성하도록 학습하여, $I_{\text{RHQ}} = H_{\text{SwinIR}}(I_{\text{LQ}}) + I_{\text{LQ}},$ 로 표현한다. 이 방식은 복원해야 할 부분만 집중적으로 학습하게 하여 효율적이다.

Loss Function

초해상도(SR)
- 다음과 같은 $L_1$ 픽셀 손실을 최소화하도록 파라미터를 학습한다. $\mathcal{L} = \| I_{\text{RHQ}} - I_{\text{HQ}} \|_1,$ 여기서 $I_{\text{RHQ}}$ 는 SwinIR의 출력이고, $I_{\text{HQ}}$ 는 정답(고화질 영상)이다.
- 고전적(Classical) / 경량(Lightweight) SR에서는 간단하게 $L_1$ 픽셀 손실만 사용하는 경우가 많다.
- 실사(Real-World) SR에서는 시각적 품질 향상을 위해 픽셀 손실 + GAN 손실 + 퍼셉션 손실을 함께 사용하기도 한다.
노이즈 제거, JPEG 압축 제거
- Charbonnier Loss를 사용한다. $\mathcal{L} = \sqrt{\| I_{\text{RHQ}} - I_{\text{HQ}} \|^2 + \epsilon^2},$ 여기서 $\epsilon$ 은 일반적으로 $10^{-3}$ 정도로 설정한다.

Residual Swin Transformer Block (RSTB)

그림 2(a)에서 보이듯이, RSTB는 Swin Transformer Layers(STL)와 컨볼루션 레이어가 포함된 Residual Block 형태이다.

구조
- $i$ 번째 RSTB 입력 특성을 $F_{i,0}$ 이라 할 때, $F_{i,j} = H_{\text{STL}_{i,j}}(F_{i,j-1}), \quad j = 1, 2, \ldots, L,$ 로 $L$ 개의 Swin Transformer Layer(STL)를 거치며, $F_{i,\text{out}} = H_{\text{CONV}_i}(F_{i,L}) + F_{i,0}.$
- 맨 뒤의 컨볼루션 레이어( $H_{\text{CONV}_i}$ )는 Transformer의 공간가변(Spatially Varying) 특징과 컨볼루션의 공간불변(Spatially Invariant) 특징을 결합하여,
  SwinIR의 Translational Equivariance를 보강해 준다.
- Residual 연결을 통해 다양한 수준의 특성이 최종 재구성 모듈까지 전달될 수 있다.

Swin Transformer Layer (STL)

기본 아이디어
- 원본 Transformer와 달리, Swin Transformer는 로컬 윈도우(Local Window) 기반의 Multi-Head Self-Attention(MSA)를 수행한다.
- 입력 크기가 $H \times W \times C$ 라면, 이를 겹치지 않는 $M \times M$ 윈도우들로 나누고(총 $\frac{H \times W}{M^2}$ 개의 윈도우) 각 윈도우 단위로 자기어텐션을 적용한다.
계산 과정
- 한 윈도우의 특성 $X \in \mathbb{R}^{M^2 \times C}$ 에 대하여, $Q = X P_Q, \quad K = X P_K, \quad V = X P_V,$ 로 $Q, K, V \in \mathbb{R}^{M^2 \times d}$ 를 만든 뒤, $\text{Attention}(Q, K, V) = \text{SoftMax}\Bigl(\frac{Q K^T}{\sqrt{d}} + B\Bigr) V,$ 를 계산한다. (이 과정을 멀티 헤드(MHA)로 확장)
- 이후, LayerNorm과 MLP를 적용하고 Residual Connection을 더해, $X = \text{MSA}(\text{LN}(X)) + X,$ $X = \text{MLP}(\text{LN}(X)) + X.$
Shifted Window Mechanism
- 윈도우 파티션이 고정되어 있으면, 각 윈도우 간 정보 교류가 어렵다.
- 그래서 정규 윈도우와 시프트 윈도우를 번갈아 가며 사용해, 서로 다른 윈도우가 겹쳐지는 영역을 형성, 크로스-윈도우 연산을 가능하게 한다.

이처럼 SwinIR은 Swin Transformer의 지역적 자가-어텐션을 활용해,
이미지 복원 작업(초해상도, 노이즈 제거, JPEG 압축 제거 등)에서 고품질 결과를 얻도록 설계되었다.

10.3 Solving Inverse Problem in Medical Imaging with Score-Based Generative Models

배경 (Background)

의료 영상 복원(Inverse Problem)
- 컴퓨터 단층촬영(CT)이나 자기 공명 영상(MRI)에서 원시(raw) 측정치(시노그램, k-스페이스 등)로부터 원본 영상을 복원하는 문제는 전형적인 역문제(Inverse Problem)이다.
기존 접근법: 지도 학습
- CT/MRI 이미지와 그에 대응되는 측정치(시노그램/ k-스페이스) 쌍을 대규모로 모아 지도 학습을 수행한다.
- 그러나 새로운 측정 과정(장비나 프로토콜이 다른 경우 등)에 대해서는 일반화가 어려운 문제가 있었다.