Neurocomputing 2026.
Sojeon Kim, Bong-Soo Sohn, Jaesung Lee
AutoML Lab, Chung-Ang University
28 April 2026
💡Key Point
스타일 전이에서는 source 이미지 기준으로 reference 이미지를 선택적으로 반영하는 것이 중요하다!
1. Motivation
Style transfer이란?
- source 이미지의 구조를 유지하면서 reference 이미지의 색감, 질감 등의 스타일을 적용해 새로운 이미지를 생성하는 작업
- 특히 diffusion 기반의 style transfer는 고품질의 이미지를 생성할 수 있고 최근에 가장 널리 사용되는 방식이다.
관련 연구
1) 전통적인 style-transfer 기법
- Optimizaiton-based
- gram matrix 기반: source와 reference의 feature 통계를 맞추는 방식
- 스타일 표현은 잘 되나, 느리고 유연성이 부족하다는 단점
- Feed-forward
- AdaIN, SANet 기반: 하나의 네트워크로 빠르게 스타일 전이 수행
- 빠르지만 복잡한 스타일 표현이 어렵고, 경계/깨짐 문제가 존재
- Text-guided diffusion
- 텍스트 prompt로 스타일 제어, but 디테일한 스타일 표현에는 한계
- 원하지 않는 결과물이나 semantic distortion 발생 가능
2) Example-guided style-transfer
- Strucure Guidance (ControlNet, T2I-Adapter)
- source 구조를 유지하자: edge map, depth, pose 등 활용
- 구조 유지는 잘 되나, 복잡한 스타일 표현은 부족
- Style Guidance (InST, ProSpect, VCT etc..)
- reference 이미지를 “임베딩”으로 변환: reference 스타일을 잘 반영
- 핵심은 reference 이미지를 텍스트 임베딩으로 변환해 diffusion의 conditioning에 사용한다는 점.
관련 연구의 한계
- 기존 style transfer diffusion은 참조 스타일을 소스에 강제로 적용하는 구조
- 특히 소스-참조 이미지 쌍에서 참조 이미지에 대응되는 스타일이 없거나 모델이 적절한 스타일 매핑을 학습하지 못할 경우 구조 붕괴나 의미적 왜곡이 발생할 수 있음
⇒ 항상 reference 스타일을 강하게 적용하려는 구조 자체가 왜곡의 원인이다
2. Insight
1) reference를 강제로 적용하는 구조는 왜곡이 발생한다
- diffusion 기반 style transfer는 높은 품질을 보이지만, 대부분의 기존 방법은 reference 스타일을 source에 일괄적으로 적용하는 구조
- 하지만 source–reference 간 semantic/structural mismatch가 존재하면:
- 일부 영역에 적용할 스타일이 없거나
- 모델이 적절한 스타일 대응을 찾지 못함
- 결과적으로: object 형태가 붕괴되고, 불필요한 패턴 생성되며 semantic distortion 발생한다.
⇒ 스타일을 항상 강하게 적용하는 것이 아니라, 상황에 따라 적용 여부를 조절할 필요가 있다
2) reference 중심 전이가 아닌 선택적 반영이어야 한다
- 기존 방식은 reference embedding이 주도적으로 스타일을 결정했음
- 하지만 source 이미지가 갖고 있는 구조와 의미를 기준으로 reference 스타일 중 적절한 부분만 선택적으로 반영하는 것이 중요하다
- source embedding을 query로 사용하고 + reference 스타일을 attention으로 선택적으로 가져오는 구조가 필요
⇒ 스타일 전이는 단순한 transfer가 아니라, source 기준으로 reference를 필터링하는 adaptive blending 문제로 봐야 한다
3) 구조 보존을 위한 guidance가 필요하다
- source와 reference를 함께 사용하는 blending 전략은 semantic consistency와 style fidelity를 동시에 개선할 수 있다.
- 그러나 두 정보를 섞으면 boundary가 흐려지고 구조가 무너질 위험이 존재함
- 핵심 통찰: blending만으로는 부족하고, 명확한 구조 정보(edge)를 추가로 제공해야 안정적인 결과 생성 가능
⇒ 스타일 전이는 blending + structural guidance를 함께 설계해야 안정적으로 동작한다
3. Method

1) Source-aware Diffusion Guidance
- 기존 방식은 reference 스타일 embedding이 중심이 되어 source 이미지를 변형하는 구조
- 제안 방식은 source embedding을 query로 사용하여, reference 스타일을 선택적으로 가져오는 attention 구조 설계
- vopt=Attention(WQ⋅vs,WK⋅vr,WV⋅vr)
- vs: source 이미지 embedding (구조/semantic 정보)
- vr: reference 이미지 embedding (스타일 정보)
- WQ,WK,WV: query, key, value projection matrix
- 이를 통해 source의 semantic 구조를 기준으로, reference 스타일 중 적합한 부분만 반영
⇒ 스타일을 일방적으로 주입하는 것이 아니라, source 기준으로 reference를 filtering하는 adaptive guidance 구조를 만든다
2) Source 보존 중심 Latent 초기화 및 생성 과정
- 기존 diffusion은 random noise에서 시작하여 generation 과정이 reference 스타일에 크게 영향받음
- 제안 방식은 초기 latent를 source embedding + noise로 구성하여, 시작부터 source 구조를 포함
- zt=E(Is)+ϵt
- Is: source 이미지
- E(⋅): encoder (이미지를 latent로 변환)
- ϵt: Gaussian noise
- zt: time step t에서의 초기 latent
- 또한 generation 과정에서도 source와 reference latent를 가중치 기반으로 blending (γ) 하여, source 비중을 유지
- zt=(1−γ)E(Ir)+γE(Is)+ϵtpred
- Ir: reference 이미지
- γ: source–reference 비중 조절 파라미터
- ϵtpred: 예측된 noise
- zt: diffusion 과정에서 사용되는 latent
⇒ 생성 과정 전반을 source 중심으로 설계하여, 구조(semantic identity)는 유지하면서 스타일만 자연스럽게 입히는 방향으로 유도
3) Boundary 기반 구조 보존 (Canny edge guidance)
- source–reference blending은 구조 정보가 섞이면서 boundary 붕괴 문제 발생 가능
- 이를 해결하기 위해 source 이미지에서 Canny edge map을 추출하여 추가적인 structural guidance로 활용
- edge 정보를 diffusion guidance 및 초기 latent 구성에 함께 반영하여, 경계와 형태를 명확하게 유지
⇒ 단순 blending의 한계를 보완하여, 구조적 일관성과 시각적 안정성을 동시에 확보
4. Experiment Analysis
1) Quantitative & Qualitative Results
- VGG 기반 metric에서 content loss와 style loss 둘다 낮게 측정
- 모든 metric에서 기존 방법(InST, ProSpect 등) 대비 일관되게 성능이 향상
- 스타일이 자연스럽게 적용됨 + 복잡한 영역에서도 의미적 일관성 유지
⇒ 특히 source-reference mismatch 상황에서 왜곡이 크게 감소함
2) User Study
- 23명 참여, 1150개 비교 평가 결과 제안 방법이 가장 높은 선호도(~32.6%)
- 정량 metric 뿐 아니라, 인간 시각 기준에서도 가장 자연스러운 결과
3) Ablation Study
- source-referecne blending이 없으면 구조 보존 / 스타일 반영 중 하나만 만족
- Boundary(canny edge) 추가 시 형태 안정성 및 경계 명확성이 향상됨
- 하이퍼파라미터(γ, s)에서는 source 비중을 높게 유지하는 것이 효과적
- γ(source 비중) = 0.7에서 최적
- s(guidance scale) = 0.4에서 최적
5. Significance of Paper
1) 스타일 전이를 ‘선택적 반영’ 문제로 해석
- reference 스타일을 source에 최대한 반영하는 방향이었던 기존 접근법에서
- source를 기준으로 reference 스타일을 선택적으로 적용하는 접근으로 변경
2) 구조 보존 ↔ 스타일 반영 trade-off를 효과적으로 해결
- 기존 방법들의 “구조 유지 ↔ 스타일 반영” 관계는 trade-off가 명확하게 발생할 수 밖에 없는 구조였다
- 본 논문에서는 embedding-level blending + source-aware guidance를 도입해 구조 유지와 스타일 반영을 동시에 가져가는 효과적인 방법을 제시함
3) I2I diffusion 생성 모델에 새로운 방향 제시
- 단순히 conditioning만 바꾼 것이 아니라 초기 latent 구성, diffusion guidance 방식, generation 과정 전체를 재설계하였음
- 특히 source 정보를 처음부터 끝까지 유지하는 구조를 제안함
- diffusion 모델에서 “conditioning + latent + generation”을 함께 설계해야 함을 보여줌