Data Cleansing : 데이터 전처리 방법
- Noise Data 식별
- Anomaly Data 식별 : 편향된 데이터
- 누락 Data 식별
Feature Selection
- 입력 데이터의 특성중에서 가장 관련성이 높거나 유용한 특성을 선택 및 불필요한 특성을 제거하는 과정
통계 기법
기법
피어슨 상관계수
- 두 변수 간의 선형 관계의 강도와 방향을 나나내는 값
Variance Inflation Factor
- 회귀 분석에서 독립 변수들간의 다중공선성을 평가하는데 사용
Feature Reduction
- 데이터 차원를 줄이는 과정, 결합하여 새로운 특성 생성
Data Augmentaion
- 기존 데이터셋을 변형하여 추가적인 학습 데이터를 생성하는 기법
Data Scaling
- 다양한 Feature의 값 범위를 표준화하거나 정규화하는 과정
- Standard Scaling
- max-min Scaling
- Robust Scaling
Data Encoding
- 카테고리리형 변수를 숫자형 변수로 변환하는 과정