[통계] 비지도학습

hyun·2022년 9월 8일
0

통계

목록 보기
36/37

📚 비지도학습

  • 레이블링 과정 없이 데이터를 주고 모델을 훈련하는 과정

📚 주성분분석(PCA)

  • 데이터의 차원을 줄이는 데 사용

두 변수 X1,X2X_1, X_2에 대해 두 주성분 ZiZ_i가 있다고 하자.

이 때 ww를 각각 성분의 부하라고 한다.
(원래 변수를 주성분으로 변환할 때 사용한다)
첫 주성분 Z1Z_1은 전체 변동성을 가장 잘 설명하는 선형결합이다.
두 번째 주성분 Z2Z_2Z1Z_1과 수직이며 나머지 변동성을 설명한다.
(성분이 더 있다면, 각각은 모두 수직이다.)

주성분은 값 자체보다는 평균으로부터의 편차에 대해 계산하는 것이 일반적이다.

계산과정

  • 전체 변동을 최대한 설명하는 선형결합 (위에서와 비슷한 식)을 찾는다.
  • 이 선형결합은 첫 번째 새로운 예측변수 Z1Z_1이 된다.
  • 같은 변수들로 다른 가중치를 가지고 Z2Z_2를 만드는 것을 반복한다. 이 때, ZZ끼리는 상관성이 없어야 한다.
  • 원래 변수 XiX_i의 개수만큼 ZiZ_i를 구할 때까지 반복한다.
  • 대부분의 변동을 설명할 수 있는 ZiZ_i만 남겨놓는다.
  • 각 주성분에 대한 가중치 집합을 얻게 된다.
  • 원래 데이터에 이 가중치를 적용해 새로운 주성분으로 변환한다.

주성분 해석

  • 스크리그래프 : 주성분의 상대적인 중요도를 표시한다.

성분을 고르는 데는, 누적 분산의 임계치를 설정하는 방법과 교차타당성검사를 하는 방법이 있다.

📚 대응분석

  • PCA는 범주형 데이터에 사용할 수 없다. 따라서 범주형에는 대응분석을 사용한다.
  • 범주간 피처 혹은 범주 간의 연관성을 인식한다.
  • 저차원 데이터의 그래프 분석에 주로 이용된다. (PCA처럼 전처리에 사용되지는 않는다.)

주 개념

0개의 댓글