차원축소

saucedong·2022년 6월 25일

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집

목록 보기

4/4

기존의 데이터를 통해서 고차원 특성 벡터를 이용하는 이론입니다.
가장 전통적인 방법으로 데이터의 특성을 찾아 복잡도를 낮추는데 사용합니다.

샘플 데이터를 정규화 처리한다
샘플의 공분산 행렬을 구한다
공분산행렬에 대해 고윳값 분해를 하고, 고윳값을 큰 값부터 작은 값으로 순서대로 배열한다
고윳값이 큰 순서로 d번째까지의 고윳값에 대응하는 고유벡터 $\omega_1, \omega_2, ..., \omega_d$ 를 취해 식 n차원의 샘플을 d차원으로 매핑한다.

공분산과 고윳값을 통해 구할수도 있지만 최소제곱오차를 통해서도 해를 구할 수 있습니다.

LDA는 지도기능이 있는 차원 축소 알고리즘이라고 볼 수 있습니다.
PCA는 데이터의 레이블을 고려하지 않고 데이터의 분산이 큰방향으로 투영할 뿐입니다.