차원축소

saucedong·2022년 6월 25일
0
post-thumbnail

PCA 최대분산 이론

기존의 데이터를 통해서 고차원 특성 벡터를 이용하는 이론입니다.
가장 전통적인 방법으로 데이터의 특성을 찾아 복잡도를 낮추는데 사용합니다.

해 구하는 방법

  1. 샘플 데이터를 정규화 처리한다
  2. 샘플의 공분산 행렬을 구한다
  3. 공분산행렬에 대해 고윳값 분해를 하고, 고윳값을 큰 값부터 작은 값으로 순서대로 배열한다
  4. 고윳값이 큰 순서로 d번째까지의 고윳값에 대응하는 고유벡터 ω1,ω2,...,ωd\omega_1, \omega_2, ..., \omega_d 를 취해 식 n차원의 샘플을 d차원으로 매핑한다.

PCA 최소제곱오차 이론

공분산과 고윳값을 통해 구할수도 있지만 최소제곱오차를 통해서도 해를 구할 수 있습니다.

선형 판별 분석(LDA)

LDA는 지도기능이 있는 차원 축소 알고리즘이라고 볼 수 있습니다.
PCA는 데이터의 레이블을 고려하지 않고 데이터의 분산이 큰방향으로 투영할 뿐입니다.

  • LDA는 각 클래스가 가우스 분포이고 각 클래스의 공분산이 같다는 가정이 있음
  • 선형 모델의 노이즈에 강한 강건성을 보임
  • 모델을 지나치게 간단하여 표현능력에 한계가 있음

선형판별분석(LDA)과 주성분분석(PCA)

PCALDA
비지도 학습지도 학습
분산이 클수록 정보량이 많다고 판단분산이 작으면서 클래스 사이의 분산은 큰방향을 선택
차원을 낮춰서 필요없는 정보를 제거차원을 축소해 각 데이터가 차별성이 있도록 함

0개의 댓글