주성분 분석법(PCA)

김진웅·2023년 11월 25일

Pattern Recognition

목록 보기
1/1
post-thumbnail

차원의 저주(Curse of dimensionality)

  • 정의

    • 다변량 자료분석시 차원의 증가에 따라 발생하는 문제들을 말함

    • 오히려 분류기의 성능을 감소시킴


  • 벡터의 차원이 높아짐에 따라 생길 수 있는 문제점

    • 잡음 특징들까지 포함되므로 오히려 분류에 상처를 줌
    • 패턴 분류기에 의한 학습과 인식 속도가 느려짐
    • 모델링에 필요한 학습 집합의 크기가 커짐

  • 극복 방법

    • 사전지식
    • 타겟 함수의 smoothness를 증가시킴
    • 차원을 줄임

  • 차원 축소의 두 가지 방법

    • 특징 선택(feature selection)
      • 전체 특징들로부터 부분집합을 선택
    • 특징 추출(feature extraction)
      • 기존의 특징들의 조합으로 구성된 적은 개수의 새로운 특징들의 부분집합
      • 선형변환으로 국한


특징추출에 의한 차원축소

  • 신호표현(Signal Representation)

    • 낮은 차원공간에서 정확하게 표현하고자 하는 경우
      -> 주성분분석법(PCA : Principal Components Analysis)
  • 분류(Classification)

    • 낮은 차원에서의 클래스 구분을 증대하고자 하는 경우
      -> 선형판별분석법(LDA : Linear Discriminant Analysis)



주성분 분석의 의미

  • 고차원의 정보를 유지하면서 저차원으로 차원을 축소하는 다변량 데이터처리방법
  • 상관(correlated)이 있는 변량들의 변동(분산)을 줄이는 차원에서 상관이 없는 변량의 집합으로 기준축을 변환하여, 특징벡터를 재배치하는 것
  • 다변량 데이터의 주성분에 해당하는 주축을 통계적인 방법으로 구하고, 이렇게 해서 얻는 특징벡터 x를 주축방향으로 사영



주성분 분석 과정

  1. NN개의 DD차원 자료들 xnx_n으로부터 공분산 행렬 Σ (DDD*D)를 계산
  2. 고유값 분석 수행
  3. DD개의 고유값들 중에서 가장 큰 고유값 MM을 선택
  4. 선택된 고유값과 관련된 고유벡터를 구하고 연결하여 변환 행렬 WW 생성
  5. 특징 벡터를 다음의 변환식으로 변환
    yy = WTW^T * xx


주성분 분석법의 한계

  • 가우시안이 아니거나 비선형인 멀티모달(multimodal)패턴에는 적용하기 곤란
  • 특징벡터의 클래스 라벨을 고려하지 않기 때문에 클래스들의 구분성은 고려하지 않음
  • 단순히 변환된 축이 최대분산방향과 정렬되도록 좌표회전을 수행하는 것
  • 최대분산방향이 특징 구분을 좋게 한다는 보장이 없음
profile
IT Velog

0개의 댓글