PCA

Hansss·2021년 11월 29일
0

Machine Learning

목록 보기
7/10

PCA(Principal component analysis)

우리말로 주성분 분석이라고 하며 고차원의 데이터를 저차원의 데이터로 환원시키는 기법을 말한다.

이 때 서로 연관 가능성이 있는 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간(주성분)의 표본으로 변환하기 위해 직교 변환을 사용한다.

데이터를 한개의 축으로 사상시켰을 때 그 분산이 가장 커지는 축을 첫 번째 주성분, 두 번째로 커지는 축을 두 번째 주성분으로 놓이도록 새로운 좌표계로 데이터를 선형변환한다.

머신러닝을 할 때 훈련 데이터의 feature가 많은 경우가 있다. 하지만 모든 feature가 결과에 중요한 영향을 끼치는 것은 아니므로 이런 feature들 중 가장 중요한 feature 몇 개 만을 선택하는 것이 PCA이다.

feature의 차원이 3차원이 넘어가면 시각화 할 수 없기 때문에 가장 중요한 2개의 feature만 선택해서 2차원으로 축소한다면 시각화를 할 수 있다.

또한 차원이 축소되는 만큼 쓸모 없는 feature들이 제거되면서 노이즈를 제거할 수 있다.

일반적으로 d차원의 데이터를 m차원까지 감소시킨다고 할 때 전체 데이터의 variance 중 90%만큼을 설명하는 차원까지 감소시킬 수 있다.

분산은 유지하면서 양을 줄였으므로 데이터 압축 기법이라고 할 수 있다.

Reference

https://ko.wikipedia.org/wiki/%EC%A3%BC%EC%84%B1%EB%B6%84_%EB%B6%84%EC%84%9D
https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-9-PCA-Principal-Components-Analysis

profile
딥러닝 연습생

0개의 댓글