21.2.21 / scikit-learn / 복습, kaggle 에임스 지방 주택 가격 예측

pjk·2021년 2월 21일
1

[매일코딩 스터디]

목록 보기
21/62

Today

스터디 내용

  • 선형 회귀 및 kaggle 실습

결과

  • kaggle 아이오와 주의 에임스 지방 주택 가격 예측 data
  • 데이터 전처리는 이상치 제거, 첨도 1 이상 값 로그 변환, 결측치 제거, 원핫인코딩 등을 수행

회귀 RMSLE 값 결과

MSE는 평균((실제값 - 예측값)^2) 이다.
즉, 값이 낮을수록 예측값과 실제값이 유사한 최적 모델이라는 의미이다.
RMSLE(루트 평균 제곱 로그 추정치)는 변수에 log를 취하고 MSE에 root를 씌운 값이다 .

선형 회귀

  • LinearRegression 의 RMSLE 값은 0.1335481829784601
    Ridge 의 RMSLE 값은 0.1144386942495777
    Lasso 의 RMSLE 값은 0.1110909186176067

Lasso 알고리즘이 가장 RMSLE가 낮다.

회귀 트리

  • XGBRegressor 의 RMSLE 값은 0.12261930700828119
    LGBMRegressor 의 RMSLE 값은 0.12488029282152302

XGBRegressor 알고리즘이 가장 RMSLE가 낮다.

회귀 트리 모델 믹싱 후 RMSLE 값

  • 최종 혼합 모델의 RMSLE: 0.12087742555813948

믹싱 후 RMSLE 값이 약 1.42 % 줄었다.

최적 선형 회귀 모델

Lasso

Tomorrow

  • 분류 복습

Summary

  • 스태킹 모델은 나중에 시간 많을 때 이해해봐야겠다.
profile
성장

0개의 댓글