차원의 저주와 PCA

Junghyeon Song·2021년 12월 2일
0

차원의 저주

데이터의 특징(Feature)이 너무 많아서 성능이 저하되는 현상입니다.
차원이 높아질수록 데이터 사이의 거리가 멀어져서 패턴을 찾기 힘들어집니다. (Sparse해짐)
(데이터의 차원을 하나 더 늘렸더니 거리가 멀어지는 모습)

해결 방법

  • 데이터를 더 많이 모아서 데이터의 밀도를 높여주기
  • 차원을 축소해주기 (PCA(Principal Components Analysis) 등의 방법을 사용)

PCA (Principle Component Analysis)

  • 고차원의 데이터를 저차원으로 축소하는 방법입니다.
  • 데이터에 feature가 많은 경우 모든 feature가 결과에 중요한 영향을 끼치는 것은 아니기 때문에, 가장 중요한 feature들을 골라냅니다. 이를 데이터 압축 기법으로 볼 수 있습니다.
    분산을 최대로 보존할 수 있는 초평면을 선택해야 정보를 가장 많이 유지할 수 있습니다.
  • 높은 주성분들만 선택하면서 정보 설명력이 낮은 노이즈 컬럼을 제거하기 때문에 노이즈 제거 기법으로 불리기도 합니다.

Reference

0개의 댓글