두 영상(이미지)의 일부 영역을 선택한 뒤, 경계가 보이지 않도록 섞어서 하나의 위조 샘플을 만드는 전략
Deepfake detection에서 문제
- GAN으로 생성한 data에는 artifact가 너무 뚜렷하다.
- 모델이 이 패턴을 외우기가 너무 쉽다.
- 따라서, artifact가 생기지 않도록 blending 하는 것이 학습에 도움이 된다.
Basic pipeline
이 파이프 라인을 어떻게 설계하느냐에 따라 논문의 contribution이 되는 듯
1. source / target 선택
- 여기서 source와 target은 대개 real image에서 선택됨
- source : 조작될 이미지
- target : 섞일 이미지
- 같은 사람의 다른 프레임
- 다른 사람의 얼굴 등등
2. blending mask 생성
- 얼굴 영역
- random region
- semantic part (눈, 코, 입 등등)
- 보통 논문들은 blending mask를 어떻게 설계했는지를 어필해서 contribution을 얻음
3. blending 수행
아래는 대표적인 방식임
- Alpha Blending
Iblend=αIsrc+(1−α)Itgt
- Poisson blending
- 밝기/조명 까지 맞춤
- artifact가 거의 없음
- multi-scale blending
- 저주파는 blending하고 고주파는 그대로 둠
- 육안으로 파악하기 어려움
4. labeling
- blended image : fake
- original image : real
위의 pipeline을 통해서 육안으로는 real처럼 보이지만 통계적으로 이상한 image들을 생성함 → 모델도 spatial artifact 가 아니라 고차원의 artifact에 집중하게 됨