Paper Review: Blended embedding guided style transfer in inversion-based diffusion for creatively-matched source-reference pairs

gitae lee·2026년 3월 31일

paper review

목록 보기
11/16

Neurocomputing 2026.
Sojeon Kim, Bong-Soo Sohn, Jaesung Lee
AutoML Lab, Chung-Ang University

28 April 2026


💡Key Point

스타일 전이에서는 source 이미지 기준으로 reference 이미지를 선택적으로 반영하는 것이 중요하다!

1. Motivation

Style transfer이란?

  • source 이미지의 구조를 유지하면서 reference 이미지의 색감, 질감 등의 스타일을 적용해 새로운 이미지를 생성하는 작업
  • 특히 diffusion 기반의 style transfer는 고품질의 이미지를 생성할 수 있고 최근에 가장 널리 사용되는 방식이다.

관련 연구

1) 전통적인 style-transfer 기법

  1. Optimizaiton-based
    • gram matrix 기반: source와 reference의 feature 통계를 맞추는 방식
    • 스타일 표현은 잘 되나, 느리고 유연성이 부족하다는 단점
  2. Feed-forward
    • AdaIN, SANet 기반: 하나의 네트워크로 빠르게 스타일 전이 수행
    • 빠르지만 복잡한 스타일 표현이 어렵고, 경계/깨짐 문제가 존재
  3. Text-guided diffusion
    • 텍스트 prompt로 스타일 제어, but 디테일한 스타일 표현에는 한계
    • 원하지 않는 결과물이나 semantic distortion 발생 가능

2) Example-guided style-transfer

  1. Strucure Guidance (ControlNet, T2I-Adapter)
    • source 구조를 유지하자: edge map, depth, pose 등 활용
    • 구조 유지는 잘 되나, 복잡한 스타일 표현은 부족
  2. Style Guidance (InST, ProSpect, VCT etc..)
    • reference 이미지를 “임베딩”으로 변환: reference 스타일을 잘 반영
    • 핵심은 reference 이미지를 텍스트 임베딩으로 변환해 diffusion의 conditioning에 사용한다는 점.

관련 연구의 한계

  • 기존 style transfer diffusion은 참조 스타일을 소스에 강제로 적용하는 구조
  • 특히 소스-참조 이미지 쌍에서 참조 이미지에 대응되는 스타일이 없거나 모델이 적절한 스타일 매핑을 학습하지 못할 경우 구조 붕괴나 의미적 왜곡이 발생할 수 있음

⇒ 항상 reference 스타일을 강하게 적용하려는 구조 자체가 왜곡의 원인이다

2. Insight

1) reference를 강제로 적용하는 구조는 왜곡이 발생한다

  • diffusion 기반 style transfer는 높은 품질을 보이지만, 대부분의 기존 방법은 reference 스타일을 source에 일괄적으로 적용하는 구조
  • 하지만 source–reference 간 semantic/structural mismatch가 존재하면:
    • 일부 영역에 적용할 스타일이 없거나
    • 모델이 적절한 스타일 대응을 찾지 못함
  • 결과적으로: object 형태가 붕괴되고, 불필요한 패턴 생성되며 semantic distortion 발생한다.

⇒ 스타일을 항상 강하게 적용하는 것이 아니라, 상황에 따라 적용 여부를 조절할 필요가 있다

2) reference 중심 전이가 아닌 선택적 반영이어야 한다

  • 기존 방식은 reference embedding이 주도적으로 스타일을 결정했음
  • 하지만 source 이미지가 갖고 있는 구조와 의미를 기준으로 reference 스타일 중 적절한 부분만 선택적으로 반영하는 것이 중요하다
  • source embedding을 query로 사용하고 + reference 스타일을 attention으로 선택적으로 가져오는 구조가 필요

⇒ 스타일 전이는 단순한 transfer가 아니라, source 기준으로 reference를 필터링하는 adaptive blending 문제로 봐야 한다

3) 구조 보존을 위한 guidance가 필요하다

  • source와 reference를 함께 사용하는 blending 전략은 semantic consistency와 style fidelity를 동시에 개선할 수 있다.
  • 그러나 두 정보를 섞으면 boundary가 흐려지고 구조가 무너질 위험이 존재함
  • 핵심 통찰: blending만으로는 부족하고, 명확한 구조 정보(edge)를 추가로 제공해야 안정적인 결과 생성 가능

⇒ 스타일 전이는 blending + structural guidance를 함께 설계해야 안정적으로 동작한다

3. Method

1) Source-aware Diffusion Guidance

  • 기존 방식은 reference 스타일 embedding이 중심이 되어 source 이미지를 변형하는 구조
  • 제안 방식은 source embedding을 query로 사용하여, reference 스타일을 선택적으로 가져오는 attention 구조 설계
    • vopt=Attention(WQvs,  WKvr,  WVvr)v_{opt} = Attention(W_Q \cdot v_s,\; W_K \cdot v_r,\; W_V \cdot v_r)
      • vsv_s: source 이미지 embedding (구조/semantic 정보)
      • vrv_r: reference 이미지 embedding (스타일 정보)
      • WQ,WK,WVW_Q, W_K, W_V: query, key, value projection matrix
  • 이를 통해 source의 semantic 구조를 기준으로, reference 스타일 중 적합한 부분만 반영

⇒ 스타일을 일방적으로 주입하는 것이 아니라, source 기준으로 reference를 filtering하는 adaptive guidance 구조를 만든다

2) Source 보존 중심 Latent 초기화 및 생성 과정

  • 기존 diffusion은 random noise에서 시작하여 generation 과정이 reference 스타일에 크게 영향받음
  • 제안 방식은 초기 latent를 source embedding + noise로 구성하여, 시작부터 source 구조를 포함
    • zt=E(Is)+ϵtz_t = E(I_s) + \epsilon_t
      • IsI_s: source 이미지
      • E()E(\cdot): encoder (이미지를 latent로 변환)
      • ϵt\epsilon_t: Gaussian noise
      • ztz_t: time step t에서의 초기 latent
  • 또한 generation 과정에서도 source와 reference latent를 가중치 기반으로 blending (γ) 하여, source 비중을 유지
    • zt=(1γ)E(Ir)+γE(Is)+ϵtpredz_t = (1 - \gamma) E(I_r) + \gamma E(I_s) + \epsilon^{pred}_t
      • IrI_r: reference 이미지
      • γ\gamma: source–reference 비중 조절 파라미터
      • ϵtpred\epsilon^{pred}_t: 예측된 noise
      • ztz_t: diffusion 과정에서 사용되는 latent

⇒ 생성 과정 전반을 source 중심으로 설계하여, 구조(semantic identity)는 유지하면서 스타일만 자연스럽게 입히는 방향으로 유도

3) Boundary 기반 구조 보존 (Canny edge guidance)

  • source–reference blending은 구조 정보가 섞이면서 boundary 붕괴 문제 발생 가능
  • 이를 해결하기 위해 source 이미지에서 Canny edge map을 추출하여 추가적인 structural guidance로 활용
  • edge 정보를 diffusion guidance 및 초기 latent 구성에 함께 반영하여, 경계와 형태를 명확하게 유지

단순 blending의 한계를 보완하여, 구조적 일관성과 시각적 안정성을 동시에 확보

4. Experiment Analysis

1) Quantitative & Qualitative Results

  • VGG 기반 metric에서 content loss와 style loss 둘다 낮게 측정
  • 모든 metric에서 기존 방법(InST, ProSpect 등) 대비 일관되게 성능이 향상
  • 스타일이 자연스럽게 적용됨 + 복잡한 영역에서도 의미적 일관성 유지

⇒ 특히 source-reference mismatch 상황에서 왜곡이 크게 감소함

2) User Study

  • 23명 참여, 1150개 비교 평가 결과 제안 방법이 가장 높은 선호도(~32.6%)
  • 정량 metric 뿐 아니라, 인간 시각 기준에서도 가장 자연스러운 결과

3) Ablation Study

  • source-referecne blending이 없으면 구조 보존 / 스타일 반영 중 하나만 만족
    • 블렌딩 적용 시 두 요소 모두 개선
  • Boundary(canny edge) 추가 시 형태 안정성 및 경계 명확성이 향상됨
  • 하이퍼파라미터(γ, s)에서는 source 비중을 높게 유지하는 것이 효과적
    • γ(source 비중) = 0.7에서 최적
    • s(guidance scale) = 0.4에서 최적

5. Significance of Paper

1) 스타일 전이를 ‘선택적 반영’ 문제로 해석

  • reference 스타일을 source에 최대한 반영하는 방향이었던 기존 접근법에서
  • source를 기준으로 reference 스타일을 선택적으로 적용하는 접근으로 변경

2) 구조 보존 ↔ 스타일 반영 trade-off를 효과적으로 해결

  • 기존 방법들의 “구조 유지 ↔ 스타일 반영” 관계는 trade-off가 명확하게 발생할 수 밖에 없는 구조였다
  • 본 논문에서는 embedding-level blending + source-aware guidance를 도입해 구조 유지와 스타일 반영을 동시에 가져가는 효과적인 방법을 제시함

3) I2I diffusion 생성 모델에 새로운 방향 제시

  • 단순히 conditioning만 바꾼 것이 아니라 초기 latent 구성, diffusion guidance 방식, generation 과정 전체를 재설계하였음
  • 특히 source 정보를 처음부터 끝까지 유지하는 구조를 제안함
  • diffusion 모델에서 “conditioning + latent + generation”을 함께 설계해야 함을 보여줌

0개의 댓글