PCA 핵심내용
- 고유벡터(Eigenvector): 고유벡터를 설명하기전에 선형변환부터 설명할 필요가 있겠다. 선형변환이란 어떤 벡터에 스칼라 혹은 매트릭스를 곱해 새로운 벡터로 변환 시키는것을 선형변환이라 한다.
그런데 어떤 벡터X 에 스칼라 or 매트릭스를 곱한 결과가 X * 상수로 나왔다면 이 벡터 X는 방향은 변하지 않았으며 단순히 크기만 증가한것이다. 그럼 이 벡터X 를 어떻게 해석해야 할까? 이것이 바로 고유벡터(Eigenvector)이다.
- 고유값(Eigenvalue): 고유벡터의 스칼라값(고유벡터의 크기값)이다.
-
고차원의 문제(The Curse of Dimensionality):
- 사람은 3차원이상의 정보를 공간적으로 다루는것이 거의 불가능함(데이터 시각화에 어려움이 따름)
- 모든 feature가 동일하게 중요하지 않음 ( 중요도가 다르다는뜻)
- 샘플수에 비해 feature가 너무 많은경우 overfitting 문제 발생
PCA의 장점
- 고차원의 데이터를 효과적으로 시각화
- 차원을 축소시켜 불필요한 연산 제거
- Overfitting 예방