[논문 리뷰] Null-text Inversion for Editing Real Images using Guided Diffusion Models

Hitdahit·2025년 4월 12일

논문리뷰

목록 보기

1/11

text-guided img generation task의 성공세
→ 이에, Image Editing에도 Text-guiding을 적용하는 연구들이 생기기 시작함.
Diffusion 기반 Img editing에는 Inversion에 성공하는 것이 반드시 전제 되어야 함.
- 그러나 text-guiding과 함께하는 inversion은 실패하게 되어 있음.
  - 보통 Guiding은 CFG를 사용하게 되어 있는데,
  - Diffusion Model의 누적 에러가 text guide 정보와 함께 CFG에 의해 증폭되므로.
text-guiding을 해도 Inversion이 성공하는 아키텍쳐가 필요해짐
- 이에 저자들은 아래의 2가지 알고리즘을 사용하여 text-guiding과 Inversion이 양립되도록 함.
1. Pivotal Inversion
2. null-text optimization

Related works (Image Editing Problem with Diffusion)
- 그냥 text embedding을 영상에 때려 넣으면?
  → 편집이 필요한 부분을 정확히 targeting 이 안됨.
- 그럼 거기에 더해 편집할 부분 마스킹해서 편집할 부분을 알려주면?
  → 마스크를 만들어야하는 수고로움 + 배경이 같이 지워짐.
- CLIP 기반의 텍스트 편집
  → 디테일한 구조 변경이 안됨.
- prompt-to-prompt는 모델이 합성한 이미지에 대해서는 수정이 잘됨.
  → 그러나 실제 이미지에서도 잘 되려면 cfg에서 inversion 이 가능해야 함
- Imagic, UniTune 같이 모델 자체를 파인튜닝
  → 성능은 좋지만 재학습 해야됨
Classifier Free Guidance (CFG)란 무엇인가?
- 최종적으로 예측된 노이즈의 값을 조작하는데,
  - sample의 conditional likelihood에서 unconditional likelihood를 뺀 값에 가중치를 주겠다는 의미
  - 굉장히 단순하지만, 효과적으로 원하는 영상을 생성할 수 있는 것이 증명됨.