

- 문제의 목적에 맞는 타겟을 설정해야 한다.
- 회귀문제에서 타겟의 분포가 imbalanced하면 성능예측에 안좋은 영향을 미칠 수 있다. (정규분포로 만들어줘야 한다.)
- 정규분포로 만드는 방법
→ 로그변환(ln(1 + x), exp(x) - 1), TransformedTargetRegressor, class_weight(분류기 파라미터)
- 타겟변수 외에 예측 시점에 사용할 수 없는 데이터가 포함되어 학습이 이루어 질 경우
- 훈련데이터와 검증데이터를 완전히 분리하지 못했을 경우
- 정보의 누수가 일어났을 경우 모델이 과적합될 경우가 많다.
- 분류 문제 사용 지표 = accuracy, precision, recall, F1, ROC_AUC
- 분류문제에서 타겟 클래스비율이 70% 이상 차이날 경우에는 정확도만 사용하면 판단을 정확히 할 수 없습니다.
- 회귀 문제 사용 지표 = MAE , MSE, RMSE, R2
사실 배운 날에 바로 쓰지 않고 프로젝트까지 끝난 후에 작성하는 글이다. 원래 이러면 안되지만 이 스프린트를 진행하고 있었을 때 너무 게을러져서 안했다. 결심이 항상 쉽게 무너지는 것 같다. 한심하지만 이미 지난 일이다. 후회하고 반성해서 매일매일 발전하는 사람이 되면 된다. 하자! 하자! 하자!