공분산(Covariance)과 상관계수(Correlation coefficient)
분산: 데이터가 흩어져 있는 정도를 하나의 값으로 나타낸 것(분산값이 클 수록 데이터가 서로 멀리 떨어져 있음)
편차 = 관측값 - 평균
편차의 합은 항상 0이기 때문에 편차의 평균도 항상 0이다.
선형대수(Linear Algebra) +
Eigenvector: 주어진 transformation에 의해서 크기만 변하고 뱡향은 변하지 않는 벡터
Eigenvalue: Eigenvector의 변화한 크기 값
PCA(Principal Component Analysis)
PCA: 데이터의 분산을 최대한 보존하면서, 저차원 공간으로 변환하는, 차원축소의 한 방법
사용하는 이유는? PCA의 목적은 원데이터 행렬 𝑋의 분산을 최대한 보존하는 데 있기 때문에 𝑍의 분산 또한 최대화되어야 합니다
