PCA 주성분 분석은 차원축소의 방법 중 하나이다.
시각화 (Visualization)
3차원이 넘어간 시각화는 우리 눈으로 볼 수 없으므로 차원 축소를 통해 시각화를 해야 한다. 시각화는 데이터를 한눈에 볼 수 있게끔 해주므로 필요하다.
노이즈 제거 (Reduce Noise)
쓸모없는 feature를 제거함으로써 노이즈를 제거할 수 있다.
메모리 절약 (Preserve useful info in low memory)
쓸모없는 feature를 제거하면 메모리가 절약된다.
퍼포먼스 향상
불필요한 feature들을 제거해 모델 성능 향상에 기여한다.
정보의 유실을 막으면서 차원을 줄이는 방법은 분산이 가장 넓은 지역을 찾아 직선을 표시하는 것이 주성분 분석의 핵심이다(?)
먼저 라이브러리에서 PCA를 import 해준다.
from sklearn.decomposition import PCA
n_components
가 파라미터로 들어가는데, 이는 주성분의 개수를 지정해준다.
위의 예시에서는 2로 설정하였다.
그 이후에는 차원이 축소된 상태로 모델을 학습시켜주면 된다.