🤔피처 중요도는 높지만 성능 자체가 떨어졌다면?
점수가 높아야 좋은 측정 지표
💡 상대경로와 절대경로
상대경로 : 현재 경로를 기준으로 하는 경로
.
임 ./
는 현재경로를 의미. ../
는 상위 경로를 의미함../
를 쓰는 것과 아무것도 안 쓰는것은 모두 같은 위치(현재 경로)를 나타냄절대경로 : 전체 경로를 다 지정하는 경로
C:
부터 시작하는 경로💡예측변수의 log변환
log를 count값(예측변수)에 적용하게 되면 한쪽으로 뾰족하게 있던 분포가 좀 더 완만한 분포가 됨
데이터에 따라 정규분포에 가까워지기도 함(꼭 그런것은 아님)
log를 취하게 되면 이상치에도 덜 민감하게 됨
log함수(np.log
)에 지수함수(np.exp
)를 취하면 원래 값으로 되돌려줌
log를 취할 때는 1을 더하고 로그를 취했는데 지수함수를 적용할 때는 반대의 순서대로 복원해야 순서가 맞음. 즉, np.exp
로 지수함수를 적용하고 -1 을 취해 로그를 취했던 순서를 복원해 주면 됨
🤔왜 정규분포가 되면 머신러닝이나 딥러닝에서 좋은 성능을 낼까?
🤔실무에서 어떻게 평가지표를 활용할까?
💡RandomizedSearchCV
원래 평가 지표 : RMSLE
예측변수에 log를 이미 취해준 상태이므로 GridSearchCV
나 RandomizedSearchCV
를 사용할 때 scoring을 RMSE(neg_root_mean_squared_error
)로 해줌
🤔왜 neg
값을 사용할까?
파라미터 범위를 너무 낮게 잡으면 과소적합이 발생할 수 있음
최종 모델의 예측값에는 np.expm1()
을 취해줌
💡feature engineering
데이터 분석에 정해진 순서는 없으나, 일반적으로 이런 순서
feature selection
feature extraction
scaling
transform
binning
dummy
hist를 그렸을 때 막대가 이어져있지 않고 떨어져있는 값은 범주형 값에 가까움.