[빅분기] 주성분 분석 Principal Component Analysis; PCA

: ) YOUNG·2021년 11월 29일
2

빅분기

목록 보기
8/20
post-thumbnail

주성분 분석(PCA)

주성분 분석의 개념

✔ 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법이다.

서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다.

변수들 사이의 구조를 이해하기 어렵다.

차원축소는 교윳값이 높은 순으로 정렬해서, 높은 고윳값을 가진 고유벡터만으로 데이터를 복원한다.


주성분 분석의 특징 ★★★★★★(중요)
누적 기여율(Cumulative proportion)이 85%(0.85) 이상이면 주성분의 수로 결정할 수 있다.

차원 감소폭의 결정은 스크리 산점도(Scree Plot), 전체 변이의 공헌도, 평균 고윳값 등을 활용하는 방법이 있다.

주성분 분석은 차원의 저주에 대한 접근 방법 중 하나이다.

여러 변수간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소한다.

스크리 산점도의 기울기가 완만해지기 직전까지 주성분의 수로 결정할 수 있다.

데이터 간 높은 상관관계가 존재하는 상황에서 상관관계를 제거할 경우 분석이 어려워진다.

주성분 분석의 목적

차원축소- 여러변수 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분 또는 요인으로 차원을 축소함으로써 데이터 이해가 용이
- 원 데이터를 새로운 기저로 투영(project)하여 차원을 축소함
다중공선성 해결- 비 상관도가 높은 변수들을 하나의 주성분 혹은 요인으로 축소하여 모형개발에 활용함

주성분 분석의 절차

  • PCA(주성분 분석)은 먼저 가장 큰 데이터 변동성을 기반으로 첫 번째 벡터 축을 생성한다.
  • 두 번째 축은 이 벡터 축에 직각이 되는 직교 벡터를 축으로 한다.
  • 세번째 축은 다시 두 번재 축과 직각이 되는 벡터를 설정하는 방식으로 축을 생성한다.
  • 생성된 벡터 축에 원본 데이터를 투영하던 벡터 축의 개수만큼 차원으로 원본 데이터가 차원 축소된다.

주성분 개수 선택 방법

누적 기여율
(Cumulative Proportion)
- 누적 기여율이 85%(0.85) 이상인 지점까지를 주성분의 수로 결정함
- 표준편차(Standard Deviation)를 제곱하면 해당 주성분의 분산 값을 구할 수 있음
- 분산 기여율은 주성분 분산 대 전체 분산의 비율
- 분산 기여율이 1에 가까울수록 원래 데이터에 대한 설명력이 큼
- 누적 기여율은 제 1주성분까지 기여율의 합
스크리 산점도 (Scree Plot) - 기울기가 완만해지기 직전까지를 주성분 수로 결정함
- x축에 주성분 y축에 각 주성분의 분산을 표현한 그래프

차원의 저주

  • 차원이 증가할 수록 데이터의 분포 분석 또는 모델 추정에 필요한 샘플 데이터의 개수가 기하급수적으로 증가하게 되는 현상

0개의 댓글