데이터의 변수가 많아지면 데이터의 차원은 증가하고 이는
위의 문제점을 야기하며, 차원의 저주를 발생시킴
위의 차원의 저주 문제를 해결하기위해 피쳐의 개수를 줄이는 방법은 두가지로 분류할 수 있음
feature selection
여러개의 피쳐중 몇개를 선택하는 것
feature extraction
기존의 피쳐들을 이용하여 새로운 피쳐를 만드는 것
PCA는 feature extraction이다.
데이터의 분산을 가장 잘나타내는 벡터들을 찾고 해당 벡터들의 공간으로 투영하여 고차원의 데이터를 저차원의 데이터로 만드는 것이다.
고유값 분해를 이용한다.
피쳐들의 공분산 행렬을 고유값 분해하여 고유 벡터를 구한다.
상위 고유값을 가지는 몇개의 고유벡터들의 공간으로 데이터를 투영한다.