데이터 과학 - 11(PCA)

박승현·2023년 11월 27일
0

데이터과학

목록 보기
12/12
post-thumbnail

Principal Component Analysis

  • 주 성분 분석
    • 데이터의 분포를 결정하는 핵심 성분을 찾는 것
    • 다차원 데이터에서 핵심성분을 찾아 1차원으로 표현할 수 있음
    • 공의 위치를 결정하는 주 성분은 스프링의 힘, 1차원으로 표현
  • 주성분 분석은 수학적으로 분산을 최대화하면서 서로 직교하는 새로운 축을 찾는 것

  • 차원 축소 방법
  • 방법 1)
    • 아무 차원이나 지우기
    • 위 중에서는 2번째가 분산이 더 커서 좋다
  • 방법 2)
    • 새로운 축을 찾기

  • 주성분 찾기
  • 주황색이 x
  • 주황색 데이터를 벡터 A를 사용해 선형변환 시킨 것(Y = XA)
    • 이때 벡터 A를 찾아야 하는 것
  • Y = XA의 주성분은 A의 고유벡터
    • Av = λv를 만족하는 v가 고유벡터이고 λ는 고윳값이라 함
  • 1) 일단 Y에대한 A를 구해야 함
    • Y의 공분산 행렬을 사용
  • 2) A의 고유벡터 구하기

  • 주성으로 데이터 표현
  • pc1, pc2를 찾고 2개르 축으로 사용

  • 최종 주성분
  • pca를 더 찾을수록 일반적으로 분산이 줄어듬
  • 0에 수렴하기 전까지의 pca까지를 주성분으로 사용
profile
KMU SW

0개의 댓글