[TIL] 210824

zhenxi·2021년 8월 24일

TIL

목록 보기

10/11

데이터 누수(leakage) :
- 타겟 변수와 비슷한 변수가 훈련 데이터에 포함된 경우
- 훈련데이터와 검증데이터를 완전히 분리하지 못했을 경우
정규표현식 re
평가지표 선택

분류 : 타겟 클래스 비율이 70퍼 이상 차이날 경우 (불균형) 정확도 뿐만 아니라, 정밀도, 재현율, ROC curve, AUC 등을 같이 사용하여야 함
회귀 : MAE, MSE, RMSE, MAPE, MPE

분류 : scikit-learn의 분류기에는 class_weight같은 클래스의 밸런스를 맞춰주는 파라미터를 가지고 있음(가중치를 조절해주는 것), class_weight='balance', oversampling, undersampling
회귀 : 타겟 분포를 잘 살필 것. 정규분포의 모양일때 좋은 성능을 보임. mean 값이 왼쪽으로 치우친 경우 negatively skewed,mean 값이 오른쪽으로 치우친 경우 positively skewed, 이상치제거, 로그변환(np.log1p<->np.expm1)

참고 코드)

t = TransformedTargetRegressor(regressor=pipe,
                              func=np.log1p,
                              inverse_func=np.expm1)

func - 변환하고자 하는 함수 지정, 로그변환해준다
inverse_func - 다시 꺼낼때는 오리지널로 돌아간것이 나온다 (원본 데이터와 스케일이 맞춰진 데이터가 나온다는 뜻)

하이퍼 파라미터 가 다른 모델 중에 모델 a가 더 효율이 좋을 것 이다.
평가지표들중에 어느게 더 나을 것이다
등등
가설검정 실패해도 상관없으니 자신만의 논리를 펼쳐보자!

인문학도(였던 것)