Paper Review: Blended embedding guided style transfer in inversion-based diffusion for creatively-matched source-reference pairs

gitae lee·2026년 3월 31일

Diffusion Model

paper review

목록 보기

11/16

Neurocomputing 2026.
Sojeon Kim, Bong-Soo Sohn, Jaesung Lee
AutoML Lab, Chung-Ang University

28 April 2026

💡Key Point

스타일 전이에서는 source 이미지 기준으로 reference 이미지를 선택적으로 반영하는 것이 중요하다!

1. Motivation

Style transfer이란?

source 이미지의 구조를 유지하면서 reference 이미지의 색감, 질감 등의 스타일을 적용해 새로운 이미지를 생성하는 작업
특히 diffusion 기반의 style transfer는 고품질의 이미지를 생성할 수 있고 최근에 가장 널리 사용되는 방식이다.

2. Insight

1) reference를 강제로 적용하는 구조는 왜곡이 발생한다

diffusion 기반 style transfer는 높은 품질을 보이지만, 대부분의 기존 방법은 reference 스타일을 source에 일괄적으로 적용하는 구조
하지만 source–reference 간 semantic/structural mismatch가 존재하면:
- 일부 영역에 적용할 스타일이 없거나
- 모델이 적절한 스타일 대응을 찾지 못함
결과적으로: object 형태가 붕괴되고, 불필요한 패턴 생성되며 semantic distortion 발생한다.

⇒ 스타일을 항상 강하게 적용하는 것이 아니라, 상황에 따라 적용 여부를 조절할 필요가 있다

2) reference 중심 전이가 아닌 선택적 반영이어야 한다

기존 방식은 reference embedding이 주도적으로 스타일을 결정했음
하지만 source 이미지가 갖고 있는 구조와 의미를 기준으로 reference 스타일 중 적절한 부분만 선택적으로 반영하는 것이 중요하다
source embedding을 query로 사용하고 + reference 스타일을 attention으로 선택적으로 가져오는 구조가 필요

⇒ 스타일 전이는 단순한 transfer가 아니라, source 기준으로 reference를 필터링하는 adaptive blending 문제로 봐야 한다

3) 구조 보존을 위한 guidance가 필요하다

source와 reference를 함께 사용하는 blending 전략은 semantic consistency와 style fidelity를 동시에 개선할 수 있다.
그러나 두 정보를 섞으면 boundary가 흐려지고 구조가 무너질 위험이 존재함
핵심 통찰: blending만으로는 부족하고, 명확한 구조 정보(edge)를 추가로 제공해야 안정적인 결과 생성 가능

⇒ 스타일 전이는 blending + structural guidance를 함께 설계해야 안정적으로 동작한다

3. Method

1) Source-aware Diffusion Guidance

기존 방식은 reference 스타일 embedding이 중심이 되어 source 이미지를 변형하는 구조
제안 방식은 source embedding을 query로 사용하여, reference 스타일을 선택적으로 가져오는 attention 구조 설계
- $v_{opt} = Attention(W_Q \cdot v_s,\; W_K \cdot v_r,\; W_V \cdot v_r)$
  - $v_s$ : source 이미지 embedding (구조/semantic 정보)
  - $v_r$ : reference 이미지 embedding (스타일 정보)
  - $W_Q, W_K, W_V$ : query, key, value projection matrix
이를 통해 source의 semantic 구조를 기준으로, reference 스타일 중 적합한 부분만 반영

⇒ 스타일을 일방적으로 주입하는 것이 아니라, source 기준으로 reference를 filtering하는 adaptive guidance 구조를 만든다

2) Source 보존 중심 Latent 초기화 및 생성 과정

기존 diffusion은 random noise에서 시작하여 generation 과정이 reference 스타일에 크게 영향받음
제안 방식은 초기 latent를 source embedding + noise로 구성하여, 시작부터 source 구조를 포함
- $z_t = E(I_s) + \epsilon_t$
  - $I_s$ : source 이미지
  - $E(\cdot)$ : encoder (이미지를 latent로 변환)
  - $\epsilon_t$ : Gaussian noise
  - $z_t$ : time step t에서의 초기 latent
또한 generation 과정에서도 source와 reference latent를 가중치 기반으로 blending (γ) 하여, source 비중을 유지
- $z_t = (1 - \gamma) E(I_r) + \gamma E(I_s) + \epsilon^{pred}_t$
  - $I_r$ : reference 이미지
  - $\gamma$ : source–reference 비중 조절 파라미터
  - $\epsilon^{pred}_t$ : 예측된 noise
  - $z_t$ : diffusion 과정에서 사용되는 latent

⇒ 생성 과정 전반을 source 중심으로 설계하여, 구조(semantic identity)는 유지하면서 스타일만 자연스럽게 입히는 방향으로 유도

3) Boundary 기반 구조 보존 (Canny edge guidance)

source–reference blending은 구조 정보가 섞이면서 boundary 붕괴 문제 발생 가능
이를 해결하기 위해 source 이미지에서 Canny edge map을 추출하여 추가적인 structural guidance로 활용
edge 정보를 diffusion guidance 및 초기 latent 구성에 함께 반영하여, 경계와 형태를 명확하게 유지

⇒ 단순 blending의 한계를 보완하여, 구조적 일관성과 시각적 안정성을 동시에 확보

4. Experiment Analysis

1) Quantitative & Qualitative Results

VGG 기반 metric에서 content loss와 style loss 둘다 낮게 측정
모든 metric에서 기존 방법(InST, ProSpect 등) 대비 일관되게 성능이 향상
스타일이 자연스럽게 적용됨 + 복잡한 영역에서도 의미적 일관성 유지

⇒ 특히 source-reference mismatch 상황에서 왜곡이 크게 감소함

2) User Study

23명 참여, 1150개 비교 평가 결과 제안 방법이 가장 높은 선호도(~32.6%)
정량 metric 뿐 아니라, 인간 시각 기준에서도 가장 자연스러운 결과

3) Ablation Study

source-referecne blending이 없으면 구조 보존 / 스타일 반영 중 하나만 만족
- 블렌딩 적용 시 두 요소 모두 개선
Boundary(canny edge) 추가 시 형태 안정성 및 경계 명확성이 향상됨
하이퍼파라미터(γ, s)에서는 source 비중을 높게 유지하는 것이 효과적
- γ(source 비중) = 0.7에서 최적
- s(guidance scale) = 0.4에서 최적

5. Significance of Paper

1) 스타일 전이를 ‘선택적 반영’ 문제로 해석

reference 스타일을 source에 최대한 반영하는 방향이었던 기존 접근법에서
source를 기준으로 reference 스타일을 선택적으로 적용하는 접근으로 변경

2) 구조 보존 ↔ 스타일 반영 trade-off를 효과적으로 해결

기존 방법들의 “구조 유지 ↔ 스타일 반영” 관계는 trade-off가 명확하게 발생할 수 밖에 없는 구조였다
본 논문에서는 embedding-level blending + source-aware guidance를 도입해 구조 유지와 스타일 반영을 동시에 가져가는 효과적인 방법을 제시함

3) I2I diffusion 생성 모델에 새로운 방향 제시

단순히 conditioning만 바꾼 것이 아니라 초기 latent 구성, diffusion guidance 방식, generation 과정 전체를 재설계하였음
특히 source 정보를 처음부터 끝까지 유지하는 구조를 제안함
diffusion 모델에서 “conditioning + latent + generation”을 함께 설계해야 함을 보여줌

gitae lee

grit

이전 포스트

Paper Review: An Image Is Worth 16x16 Worlds (ViT)

다음 포스트