[데이터사이언스] Diary - (12)

Pream·2022년 2월 8일
0

PCA 핵심내용

  1. 고유벡터(Eigenvector): 고유벡터를 설명하기전에 선형변환부터 설명할 필요가 있겠다. 선형변환이란 어떤 벡터에 스칼라 혹은 매트릭스를 곱해 새로운 벡터로 변환 시키는것을 선형변환이라 한다.

그런데 어떤 벡터X 에 스칼라 or 매트릭스를 곱한 결과가 X * 상수로 나왔다면 이 벡터 X는 방향은 변하지 않았으며 단순히 크기만 증가한것이다. 그럼 이 벡터X 를 어떻게 해석해야 할까? 이것이 바로 고유벡터(Eigenvector)이다.

  1. 고유값(Eigenvalue): 고유벡터의 스칼라값(고유벡터의 크기값)이다.
  1. 고차원의 문제(The Curse of Dimensionality):

    1. 사람은 3차원이상의 정보를 공간적으로 다루는것이 거의 불가능함(데이터 시각화에 어려움이 따름)
    2. 모든 feature가 동일하게 중요하지 않음 ( 중요도가 다르다는뜻)
    3. 샘플수에 비해 feature가 너무 많은경우 overfitting 문제 발생

PCA의 장점

  1. 고차원의 데이터를 효과적으로 시각화
  2. 차원을 축소시켜 불필요한 연산 제거
  3. Overfitting 예방
profile
예비 데이터개발자

0개의 댓글