#22 차원의 저주

chiro_J·2022년 9월 11일
0

머신러닝 클리닉

목록 보기
22/29
post-thumbnail

차원의 저주 (Curse of Dimensionality)

고차원 공간에 있는 데이터를 분석할 때 발생하는 여러 가지 현상.

차원 = 변수의 수 = 축의 개수

→ 차원이 늘어난다
= 변수(Feature)의 수가 많아진다
= 축의 개수가 많아진다
= 데이터의 공간이 커진다
= 이를 채우기 위한 데이터 건수도 증가


차원이 커짐에 따라 그 공간이 커지고, 그에 따라 공간 내에 모든 경우를 다 채우려면 더 많은 데이터가 필요


▶ 차원이 커짐에 따라 모든 경우를 다 파악하는데 필요한 데이터가 기하급수적으로 늘어나는 현상

충분히 공간을 표현할 만큼 큰 데이터 수집 없이, 적은 데이터로만 이 공간을 표현하는 경우 과적합(Overfitting)이 발생할 수 있다.


차원 축소

차원의 수를 줄이는 것, 변수의 수를 줄이는 것.

차원의 저주를 해소하기 위해 필요.

단순히 데이터를 압축하는 것이 아닌, 차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는 잠재적인 요소를 추출하는 데에 있다.

차원의 저주 탈피

차원 축소 알고리즘은 이미지 분류 등의 분류 수행 시에 과적합을 방지할 수 있고, 텍스트 문서의 숨겨진 의미를 추출할 수 있습니다.

시각화의 용이성

말 그대로 차원이 적을 수록 시각화 즉, 차트로 표현하기 쉽다는 것이다. 인간은 최대 3차원 그래프까지 눈으로 인식할 수 있기 때문에 차원을 줄이면 쉽게 데이터를 표현할 수 있게 된다.

차원축소의 방법

Feature Selection (변수 선택)

가지고 있는 변수들 중에 중요한 변수만 몇 개 고르고 나머지는 버리는 방법.

특정 피처에 종속성이 강한 불필요한 피처는 아예 제거.

변수 간에 중첩이 있는지, 어떤 변수가 중요한 변수인지, 어떤 변수가 타켓에 영향을 크게 주는 변수인지를 분석할 필요가 있다.

중첩되는 변수를 찾을 때 주로 상관분석(Correlation)을 이용.
종속변수에 영향을 크게 주는 중요한 변수는 랜덤포레스트(Random Forest) 또는 XGBoost 등을 이용.

장점 : 선택한 피처의 해석이 용이함.
단점 : 피처 간 상관관계를 고려하기 어려움.

Feature Extraction (변수 추출)

모든 변수를 조합하여 이 데이터를 잘 표현할 수 있는 중요 성분을 가진 새로운 변수를 추출하는 방법.

기존 피처를 저차원의 중요 피처로 압축해서 추출.
새롭게 추출된 중요 피처는 기존의 피처가 압축된 것이므로, 기존의 피처와는 완전히 다른 값이 됨.

주로 사용되는 방법은 주성분분석(PCA, Principal Component Analysis)을 이용.

장점 : 피처 간 상관관계를 고려하기 용이함, 피처의 개수를 많이 줄일 수 있음.
단점 : 추출된 변수의 해석이 어려움.

0개의 댓글