Manifold hypothesis는 Generative Model을 비롯한, 다양한 기계학습 모델의 기저에서 사용되는 가설이다.
Wikipedia의 원문을 빌려 설명하자면 다음과 같다.
The manifold hypothesis posits that many high-dimensional data sets that
occur in the real world actually lie along low-dimensional latent manifolds
inside that high-dimensional space.
즉, 실제로 세상에서 얻어지는 고차원 data들은, 저차원의 "latent manifold"에 의해 생성된다는 가설이다.
그러므로, 우리가 그 latent와 latent를 실제 data로 mapping할 수 있는 함수를 안다면, 실제 데이터를 생성할 수 있는 방법을 찾게 되는 것이다.
실제로, 많은 Generative model들의 방법은, data를 통해 latent를 추론하고 해당 latent로부터 데이터를 생성하도록 설계 되었다.
VAE의 경우, 해당 latent를 Gaussian으로 가정하고 machine learning model의 output을 Gaussian의 parameter인 (평균)와 (분산)으로 설정하여 latent를 sampling하는 방식으로 추론한다. 이렇게 sampling된 latent를 실제 data로 mapping하는 함수또한 machine learning model을 통해 찾도록 설계되었다.
GAN의 경우, 입력 data를 Random noise(latent)로 사용하여 이 latent를 실제 data로 mapping하는 함수를 machine learning를 통해 찾는다. 다만, 생성된 data와 실제 data를 구별하는 model을 두어, latent를 실제 data로 mapping하는 model의 성능을 최적화 한다.
이 밖에도, latent를 통해 실제 data를 생성하는 ML model들은 Manifold hypothesis를 기원으로 두고 있는것이다.