jayce99.log
로그인
jayce99.log
로그인
[Regression Problem] Feature Selection
jayce
·
2024년 6월 29일
팔로우
0
Regression
zerobase
머신러닝
머신러닝_제로베이스 데이터 분석 스쿨
목록 보기
4/14
Overfitting을 방지하기 위해서 Feature Selection 수행
Underfitting일 때는 모델의 정확도가 낮기 때문에 Feature Selection이 의미가 없음
Train Set 정확도가 높지만 Test Set의 정확도가 낮을 때 Feature Selection 수행
Feature의 수가 많아지면 많아질수록 Model Complexity(복잡도)는 높아짐
Model Complexity가 높아지면 높아질 수록 Bias는 낮아 지는 반면 Variance가 높아짐
따라서, Feature Selection을 활용하여
Bias와 Variance의 Trade-off 최적점을 도출
해야함
Exhaustive Search (완전 탐색)
Feature의 최적 조합을 찾아냄
경우의 수는 𝟐^𝒑-1 (단, P는 Feature의 개수)
총 7개 Subsets의 정확도를 바탕으로 최적의 조합을 찾아냄
Training Set의 정확도 보다 Test Set의 정확도를 봄
이러한 Exhaustive Search (완전 탐색) 방법은 시간이 너무 오래 걸림
시간이 Exponential 하게 증가함
Forward Selection
Multiple linear Regression에서의 Forward Selection
처음에는 variable이 없이 시작해서 하나씩 중요한 변수들을 Sequentially 추가함
한번 선택된 variable은 절대 지우지 않음
예시 (8개 Variables)
Backward Elimination
Multiple linear Regression에서의 Backward Elimination
처음에는 모든 variables을 사용하고, 정확도에 영향을 미치지 않는 불필요한 variable을 sequentially 제거함
한번 제거된 variable은 절대 다시 선택하지 않음
예시 (8개 Variables)
Stepwise Selection
Forward Selection과 Backward Elimination을 번갈아 가며 수행함
Forward Selection과 Backward Elimination 보다 시간은 오래 걸릴 수 있지만, 최적 Variable Subset을 찾을 가능성이 높음
예시 (8개 Variables)
세가지 방법 정리
jayce
팔로우
이전 포스트
[Regression Problem] Model 평가 및 지표 해석
다음 포스트
[Regression Problem] Penalty Term
0개의 댓글
댓글 작성