밑의 데이터는 외출 활동이 좋은지 아닌지 분류하는 모델을 만들고자 할때, 날씨 데이터의 Feature가 101가지로 들어온 데이터다.
이는 101차원의 데이터와 같은 의미다.
고차원 데이터는 계산과 시각화의 어려움으로 분석이 힘들어진다.
원 데이터의 분포를 가능한 유지하며 데이터의 차원을 줄이는 것이 차원 축소(dimensionality reduction)이다.
강한 상관관계를 가지는 몇몇 feature들을 함께 학습 시킬 경우,
모델의 과적합이 발생하여 성능이 저하될 수 있다.
이를 방지하기 위해 feature를 선택/가공하는 과정을 거친다. (3가지)
1) Feature Selection : 필요한 feature만 선택.
2) Feature Extraction : 작은 차원으로 feature를 mapping한다.
차원 축소 기법들 -> PCA, LDA, SVD, NMF 등.
3) Feature Engineering : feature가 부족할때, 모델의 기능 활용 목적에 따라 새로운 feature들을 생성하는 것.
여러 피쳐들이 갖는 정보들을 하나로 압축한다.
위 그래프 중 (습도,강수량) or (풍속,태풍여부)는 각각 밀접한 연관성이 있다.
이러한 연관성이 높은 피처들을 하나로 합쳐주는 작업을 뜻한다.
Reference
(코드) https://huidea.tistory.com/44