
손실 함수는 원본 데이터와 복원된 데이터 간의 차이를 최소화하는 것인 목표
유클리드 거리(제곱오차)를 사용하여, 두 데이터 간의 차이를 측정
잠재 공간 연속성의 부족
기존 오토인코더는 데이터가 잠재 공간에서 연속적인 분포를 생성하지 않기 때문에, 새로운 데이터를 생성하는데 한계가 있었음
데이터 생성의 제약
기존 오토인코더는 주어진 데이터에 대해 재구성은 가능하지만, 학습되지 않은 새로운 데이터의 생성에는 어려움을 겪음
노이즈에 민감
입력 데이터가 노이즈에 취약할 경우, 재구성된 출력이 품질 저하를 일으킬 수 있음
어떤 데이터포인트에도 해당하지 않는 잠재 공간의 부분이 발생한다
클러스터링이 되지 않은 값으로 생성하면 숫자가 출력 되지 않는다
이러한 문제는 데이터가 많으면 해결할 수 있다 또한 이러한 문제를 해결하기 위해서
새로운 오토인코더가 등장했는데...
변분 오토인코더는 입력 데이터 x를 인코더를 통해 평균과 표준편차로 표현된 잠배분포에 매핑
잠재 변수를 정규 분포에 가깝게 만들도록 학습
각 샘플 데이터는 잠재 공간에서 하나의 확률 분포로 표현된 개별 숫자 이미지
VAE는 전통적인 오토인코더와는 다르게, 입력을 하나의 고정된 벡터로 매핑하지 않고,
확률 분포로 매핑
잠재공간을 잘 구조화하기 위해
표준 정규 분포란 평균이 0이고 분산 1인 정규분포를 의미
KL 발산
KL 발산은 두 분포간 "거리를 측정" 하는 용도로 사용되며,
이 거리가 클수록 두 분포가 더 다르다는 것을 의미