WGAN - 와서스테인 GAN

Lia·2021년 10월 31일

AI

목록 보기

10/11

먼저 이 글은 "미술관에 GAN 딥러닝 실전 프로젝트" 책을 정리한
내용을 알립니다. 이점 참고해 주시면 감사하겠습니다.

GAN의 문제점

1. 손실 불안정

GAN 모델은 일반적으로 배치마다 손실이 약간씩 진동합니다
하지만 이 진동이 장기적으로 심하게 나타나는 경우가
GAN 모델에서는 발생하기 쉽습니다.

2. 모드 붕괴 (Mode Collapse)

source : jonathan-hui.medium.com

위 그림은 MNIST 데이터 셋으로 GAN 모델을 훈련 했을 때에
발생한 모드 붕괴의 모습 입니다.

위 그림 처럼 모드 붕괴는 생성자가 판별자를 항상 속이는 하나의 샘플을
찾으면 위와 같은 그림이 나타나게 됩니다.

이 책에서는 "손실 함수의 그레디언트가 0에 가까운 값으로 무너진다(collapse)" 라고도 표현하고 있습니다.

3. 유용하지 않은 손실

일반적으로 딥러닝 모델은 손실 함수를 최소화 하는 것을 목적으로 학습을 하기 때문에
손실이 작을수록 생성된 이미지 품질이 더 좋아질 것으로 기대할 수 있습니다.

하지만 GAN 모델의 손실은 이미지 품질이 향상될수록 생성자의 손실은 증가합니다.
이러한 괴리는 GAN의 훈련 과정을 모니터링하기 어렵게 할수도 있습니다.

WGAN - 와서스테인 GAN의 특징

1. 손실함수

WGAN 모델은 GAN 모델에서 사용한 이진 크로스 엔트로피 대신
와서스테인 손실을 사용하여 모델이 더욱 안정적으로 수렴할 수 있도록 하였습니다.

-\cfrac{1}{n}\displaystyle\sum_{i=1}^n(y_{i}\log(p_{i})+(1-y_{i})\log(1-p_{i}))

binary\space\space cross\space\space entropy\space\space loss

-\cfrac{1}{n}\displaystyle\sum_{i=1}^n(y_{i}p_{i})

Wasserstein\space\space loss

우선 와서스테인 손실은 타깃값을 1과 0 대신 타깃값 $y_{i}=1$ , $y_{i}=-1$ 을 사용합니다.

그리고 판별자의 마지막 층에 시그모이드 함수를 제거하여 예측값 $p_{i}$ 가 $\lbrack\space0,\space1\space\rbrack$ 에 국한되지 않고
$\lbrack\space-\infin\space,\space\infin\space\rbrack$ 에 어떤 숫자도 될 수 있도록 만듭니다. 이와 같은 이유로 WGAN의 판별자 는 보통 비평자라 부릅니다.