PCA 간단한 정리

기린이·2022년 5월 24일
0

Why

데이터의 변수가 많아지면 데이터의 차원은 증가하고 이는

  • 연산량 증가
  • 데이터의 밀집도 감소
  • 고차원 공간을 설명할 모델을 학습할 데이터 부족

위의 문제점을 야기하며, 차원의 저주를 발생시킴

What

위의 차원의 저주 문제를 해결하기위해 피쳐의 개수를 줄이는 방법은 두가지로 분류할 수 있음

  • feature selection
    여러개의 피쳐중 몇개를 선택하는 것

  • feature extraction
    기존의 피쳐들을 이용하여 새로운 피쳐를 만드는 것

PCA는 feature extraction이다.

데이터의 분산을 가장 잘나타내는 벡터들을 찾고 해당 벡터들의 공간으로 투영하여 고차원의 데이터를 저차원의 데이터로 만드는 것이다.

How

고유값 분해를 이용한다.

피쳐들의 공분산 행렬을 고유값 분해하여 고유 벡터를 구한다.

상위 고유값을 가지는 몇개의 고유벡터들의 공간으로 데이터를 투영한다.

profile
중요한 것은 속력이 아니라 방향성

0개의 댓글