Feature 란?
데이터의 특성을 나타내는 부분.
표에서는 열이 해당된다

나이는 하나의 특성을 나타내는 예시
좋은 Feature 는 무엇인가?
- 머신러닝의 지도학습의 경우 타겟을 잘 예측할 수 있게 경우
- 다른 정보와 중복되지 않은 정보를 가질 경우
- 해석이 쉽고 직관적인 경우
- 값이 치우치지 않고 이상치가 적은 경우
- 일관적인 패턴을 가진 경우
- 다양하고 구체적인 정보를 가질 경우
Feature 의 성능이 좋은지 판단하는 방법?
< 전반적 평가 >
SHAP(SHapley Additive exPlanations)
Recursive Feature Elimination (RFE)
Mutual Information (MI)
< 지도학습 >
- Feature 가 예측에 기여하는 정도 측정
트리모델의 경우 (e.g., Random Forest, XGBoost, LightGBM) Feature Importance 계산 내장 메커니즘 제공
선형모델의 경우 Lasso, Ridge 회귀 사용
- Feature 를 추가하거나 제거했을때 모델 성능(정확도, F1-Score, RMSE 등) 을 교차검증으로 비교
- 변수간의 상관관계 분석
- VIF(Variance Inflation Facto) 로 다중공선성 체크
< 비지도 학습 >
- 클러스터링 평가 : 클러스터간 분리가 잘 되었는지 ex)실루엣 점수
- PCA