AI 부트캠프 2기 - Day 24

Jeongwoo Lee·2021년 4월 6일
0

Codestates AI Bootcamp

목록 보기
19/19

[Today I Learned]

Warm-up

  • R2R^2 = (y^yˉ)2(yyˉ)2\frac{\sum{(\hat{y} - \bar{y})^2}}{\sum{(y -\bar{y})2}}

    • 0 ~ 1 사이의 값을 가짐
    • R2R^2 값이 1에 가까울수록 설명력이 높다
  • Standard Error of the Estimate

    • (yˉy)2n2\sqrt{\frac{\sum{(\bar{y}-y)^2}}{n-2}}
  • Training & Test
    훈련 데이터와 테스트 데이터를 나누는 이유

    • 일반화가 잘된 모델을 만들기 위해 (과적합 방지)
  • Bias & Variance

Session - n212

  • 훈련 데이터와 테스트 데이터 나누는 법
    • sample 메소드
    • scikit-learn
from sklearn.model_selection import train_test_split

#X_train, X_test, y_train, y_test
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
  • 다중선형회귀모델 학습 (scikit-learn 활용)

    • 선형회귀는 다른 모델에 비해 상대적으로 학습이 빠르고 설명력이 강하다.
    • 과소적합이 잘 일어난다.
  • 회귀모델의 평가지표

    • MSEMSE : (실제값예측값)2(실제값 - 예측값)^2 의 평균
      • 기본적으로 많이 쓰임
      • 단위 스케일 변화
      • 이상치에 민감
    • MAEMAE : 실제값예측값|실제값 - 예측값| 의 평균
      • 단위 스케일 변화 없음
    • RMSERMSE : MSE\sqrt{MSE}
      • MSEMSE 단점 개선
    • R2R^2 : SSRSST\frac{SSR}{SST}
      • 회귀 모델의 설명력을 표현
      • SSESSE : (실제값예측값)2(실제값-예측값)^2 의 합
      • SSRSSR : (평균값예측값)2(평균값-예측값)^2 의 합
      • SSTSST : SSE+SSRSSE + SSR
  • 과적합 & 과소적합

    • 일반화
    • 분산 & 편향
      • 분산이 높음 = 과적합
      • 편향이 높은 = 과소적합
      • 분산/편향 트레이드 오프 관계
    • 충분한 데이터가 필요
    • 모델의 복잡도가 올라갈수록 그만큼 과적합이 될 가능성도 올라감
    • 과소적합보다는 과적합의 경우가 모델 학습에서는 더 낫다.
  • Plotly

과제

  • 회귀분석에서 변수선택 방법
    • 전진선택법
    • 후진선택법
    • 단계선택법
profile
열심히 하자

0개의 댓글