주성분 분석 (Principal Component Analysis)의 기본개념 정리

Seung Joo·2021년 5월 26일

공분산 행렬과 고유벡터

고유벡터의 의미

  • 행렬이 벡터의 변화에 작용하는 주축(principal axis)의 방향을 나타내줌
  • 즉 공분산 행렬의 고유벡터는 데이터가 어떤 방향으로 분산되어 있는지를 찾아줌

고윳값의 의미

  • 고유벡터 방향으로 얼마만큼의 크기로 벡터공간이 늘려지는지를 의미
  • 즉 고윳값이 큰 순서대로 고유벡터를 정렬하면 결과적으로 중요한 순서대로 주성분을 구성하게 됨

공분산 행렬

행렬 = 선형변환, 벡터 공간을 다른 벡터 공간으로 mapping

[abcd]\begin{bmatrix} a&b\\ c&d \end{bmatrix}

a = x축 방향으로 퍼진 정도
b = x, y축 방향으로 함께 퍼진 정도
c = x, y축 방향으로 함께 퍼진 정도
d = y축으로 퍼진 정도

b, c = 양수 일 경우 1, 3 사분면을 통과하는 모양
b, c = 음수 일 경우 2, 4 사분면을 통과하는 모양

PCA란?

여러개의 양적변수(Quantiative Variable)들 사이의 분산-공분산 관계를 이용하여 변수들의 선형결합(linear combination)으로 표시되는 주성분(Principal Component)을 찾고, 2-3개의 주성분으로 전체 변동(variance)의 대부분을 설명하고자 하는 다변량분석법

주성분 분석의 개념은 데이터 프레임의 총 변동을 대부분 설명할 수 있는 변수 선형 조합을 찾아내는 것

많은 변수를 처리해야 할 때, 전체 데이터 프레임보다 원 데이터의 조합을 사용하는 것이 훨씬 간단함

변수추출 (Feature Extraction)

기존 변수를 조합해 새로운 변수를 만드는 기법
PCA는 기존 변수를 선형결합(linear combination)해 새로운 변수를 냄

PCA 이론 파악
참고 : https://excelsior-cjh.tistory.com/167
PCA에 대한 설명이 잘 나와있다.
참고 : https://angeloyeo.github.io/2019/07/27/PCA.html

profile
조금씩 천천히

0개의 댓글