[논문 리뷰] Null-text Inversion for Editing Real Images using Guided Diffusion Models

Hitdahit·2025년 4월 12일

논문리뷰

목록 보기
1/11
  • 제목: Null-text Inversion for Editing Real Images using Guided Diffusion Models
  • 학술지: CVPR 2023
  • 저자: Ron Mokady, Amir Hertz et al.
  • 연구그룹: Google Research, Tel Aviv

논문 제안 배경

  • text-guided img generation task의 성공세
    → 이에, Image Editing에도 Text-guiding을 적용하는 연구들이 생기기 시작함.
  • Diffusion 기반 Img editing에는 Inversion에 성공하는 것이 반드시 전제 되어야 함.
    • 그러나 text-guiding과 함께하는 inversion은 실패하게 되어 있음.
      • 보통 Guiding은 CFG를 사용하게 되어 있는데,
      • Diffusion Model의 누적 에러가 text guide 정보와 함께 CFG에 의해 증폭되므로.
  • text-guiding을 해도 Inversion이 성공하는 아키텍쳐가 필요해짐
    - 이에 저자들은 아래의 2가지 알고리즘을 사용하여 text-guiding과 Inversion이 양립되도록 함.
    1. Pivotal Inversion
    2. null-text optimization

M&M

  • Related works (Image Editing Problem with Diffusion)
    • 그냥 text embedding을 영상에 때려 넣으면?
      → 편집이 필요한 부분을 정확히 targeting 이 안됨.
    • 그럼 거기에 더해 편집할 부분 마스킹해서 편집할 부분을 알려주면?
      → 마스크를 만들어야하는 수고로움 + 배경이 같이 지워짐.
    • CLIP 기반의 텍스트 편집
      → 디테일한 구조 변경이 안됨.
    • prompt-to-prompt는 모델이 합성한 이미지에 대해서는 수정이 잘됨.
      → 그러나 실제 이미지에서도 잘 되려면 cfg에서 inversion 이 가능해야 함
    • Imagic, UniTune 같이 모델 자체를 파인튜닝
      → 성능은 좋지만 재학습 해야됨
  • Classifier Free Guidance (CFG)란 무엇인가?
    • 최종적으로 예측된 노이즈의 값을 조작하는데,
      - sample의 conditional likelihood에서 unconditional likelihood를 뺀 값에 가중치를 주겠다는 의미
      - 굉장히 단순하지만, 효과적으로 원하는 영상을 생성할 수 있는 것이 증명됨.

  • Proposals

    • Pivotal Inversion

      • 기본 DDIM inversion에도 당연히 그 과정에서 error가 있음.
      • text-guide, 즉 CFG를 적용하면 이 error가 증폭됨. (error에 weight 크기만큼 곱하게된다.)
      • 그래서, forward에서는 w=1로 대충 z*를 만들고
      • backward에서는 w>1을 사용해서 매 스텝마다 z*와 가까워지게끔 최적화 함
        • 그럼 zt1z_{t-1}의 무엇을 최적화 해야됨? → 아직 더 알아야 할 것이 있음. 밑의 Null-text optimization에서 나옴


    • Null-text optimization

      • 위의 Figure에서 표현된 "빈 문자열"도 결국 clip에 의해 embedding 되는 놈임.
      • 그 임베딩 된 벡터를 null-text embedding이라고 함.
      • null-text embedding만을 아래의 식이 최소값이 되도록 최적화 하는 것을 null-text optimization이라 함
  • 최종 알고리즘.

0개의 댓글