PCA (Principal Component Analysis)

Heejin·2023년 5월 30일
0

주성분 분석(Principal Component Analysis, PCA)는 가장 널리 사용되는 차원 축소 기법 중 하나이다. PCA는 고차원 데이터를 저차원으로 압축하면서 원본 데이터의 변동성을 최대한 보존하는 방식으로 작동한다.

PCA는 데이터의 주성분(principal components)을 추출하여 차원을 축소한다. 주성분은 원본 데이터의 가장 큰 변동성을 설명하는 축으로, 데이터의 분산을 최대화하는 방향을 나타낸다. 이를 통해 데이터의 구조와 패턴을 유지하면서 차원을 줄일 수 있다.

PCA의 동작 방식은 다음과 같다:

  1. 데이터의 정규화: PCA를 적용하기 전에 데이터를 정규화하여 각 변수의 스케일을 맞춘다.

  2. 공분산 행렬 계산: 정규화된 데이터를 기반으로 공분산 행렬을 계산한다. 공분산은 변수 간의 상관관계를 나타내며, PCA는 이를 기반으로 주성분을 추출한다.

  3. 고유값 분해: 공분산 행렬을 고유값 분해하여 고유값(eigenvalues)과 고유벡터(eigenvectors)를 구한다. 고유값은 각 주성분이 설명하는 데이터의 변동성을 나타내며, 고유벡터는 주성분의 방향을 나타낸다.

  4. 주성분 선택: 고유값을 내림차순으로 정렬한 뒤, 가장 큰 고유값에 해당하는 고유벡터부터 차례대로 선택한다. 이를 통해 변동성이 가장 큰 주성분부터 순서대로 추출된다.

  5. 주성분 변환: 선택된 주성분으로 데이터를 새로운 공간으로 변환한다. 이 과정에서 차원이 축소되며, 변환된 데이터는 기존 데이터의 주성분에 대한 계수로 표현된다.

PCA를 통해 차원을 축소하면서 원본 데이터의 정보 손실을 최소화할 수 있으며, 데이터 시각화, 특성 선택, 잡음 제거 등 다양한 분야에서 활용된다.

0개의 댓글