✔ 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법이다.
✔ 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다.
✔ 변수들 사이의 구조를 이해하기 어렵다.
✔ 차원축소는 교윳값이 높은 순으로 정렬해서, 높은 고윳값을 가진 고유벡터만으로 데이터를 복원한다.
주성분 분석의 특징 ★★★★★★(중요)
✔ 누적 기여율(Cumulative proportion)이 85%(0.85) 이상이면 주성분의 수로 결정할 수 있다.
✔ 차원 감소폭의 결정은 스크리 산점도(Scree Plot), 전체 변이의 공헌도, 평균 고윳값 등을 활용하는 방법이 있다.
✔ 주성분 분석은 차원의 저주에 대한 접근 방법 중 하나이다.
✔ 여러 변수간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소한다.
✔ 스크리 산점도의 기울기가 완만해지기 직전까지 주성분의 수로 결정할 수 있다.
✔ 데이터 간 높은 상관관계가 존재하는 상황에서 상관관계를 제거할 경우 분석이 어려워진다.
주성분 분석의 목적
차원축소 | - 여러변수 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분 또는 요인으로 차원을 축소함으로써 데이터 이해가 용이 - 원 데이터를 새로운 기저로 투영(project)하여 차원을 축소함 |
다중공선성 해결 | - 비 상관도가 높은 변수들을 하나의 주성분 혹은 요인으로 축소하여 모형개발에 활용함 |
주성분 분석의 절차
주성분 개수 선택 방법
누적 기여율 (Cumulative Proportion) | - 누적 기여율이 85%(0.85) 이상인 지점까지를 주성분의 수로 결정함 - 표준편차(Standard Deviation)를 제곱하면 해당 주성분의 분산 값을 구할 수 있음 - 분산 기여율은 주성분 분산 대 전체 분산의 비율 - 분산 기여율이 1에 가까울수록 원래 데이터에 대한 설명력이 큼 - 누적 기여율은 제 1주성분까지 기여율의 합 |
스크리 산점도 (Scree Plot) | - 기울기가 완만해지기 직전까지를 주성분 수로 결정함 - x축에 주성분 y축에 각 주성분의 분산을 표현한 그래프 |
차원의 저주