[TIL] 210908

zhenxi·2021년 9월 8일
0

TIL

목록 보기
11/11

Section review

sprint 1

  • 지도학습 vs 비지도학습
  • 비지도 학습 (target값이 없음), 딥러닝과 연계해서 많이 발전 중
  • linear regression
  • Regression : 성능은 안좋지만 과적합이 안된다는 장점
  • Regularization (Ridge, Lasso)
  • classifivation
  • baseline
  • one-hot encoding (high cardinality일 경우, 너무 많은 colunm을 생성함)
  • train/validation/test set 나누기

sprint 2

  • Decision tree (분류, 회귀 모두 사용 가능, 앙상블의 기본 모델로 많이 사용)
  • pipeline (sklearn에서 데이터를 처리하는 component를 연속적으로 처리할 수 있는 기능)
  • ensemble 머신러닝 모델들을 조합하여 만듦 (stacking이라는 방법 한번 보기)
  • 평가지표
  • cross-validation (overfitting을 통해 과적합이 일어났는지 확인, 모델의 신뢰도 up)
  • hyperparameter tuning (random serch, grid serch, 하이퍼파라미터를 직접 조절하면서 어떤 기능을 하는지 익힐 필요가 있음)

sprint 3

  • 모델에 대한 시나리오를 짜기 전에 이러한 workflow를 확인
  • leakage( 예측을 해야하는 시점에 데이터를 잘 모르고 있는 경우에 발생) 튜닝도 안하고 그냥 간단하게 돌렸는데, 성능이 너무 좋다 -> 누수의 가능성 있음
  • imbalanced data(undersampling, oversampling, class weight 조절)
  • data wrangling
  • boosting model (tree ensemble)
  • feature importances(permutaion importance 등..)
  • PDP
  • SHAP
profile
인문학도(였던 것)

0개의 댓글