2.1.2_Multiple_Regression

chang·2021년 2월 7일
0

부트캠프

목록 보기
17/28

[키워드]

  • 다중회귀모델의 해석과 회귀평가지표
  • train set/test set 분할
  • overfitting/underfitting
  • scikit-learn 통한 다중회귀

[학습내용]

  • 단순회귀 모형에의 적합과 모형 해석
  • 회귀모델의 평가지표들의 개념과 Scikit-learn에서의 구하는 방식
  • scikit-learn 통한 다중회귀의 절차
  • scikit-learn 통한 다항회귀 적합
  • 분산-편향 trade-off

선형모델 : 편향 높음(타겟값과 오차 큼) / 분산 낮음 / 과소적합

비선형모델 : 편향 낮음(타겟값과 오차 작음)

모형편향분산
선형높음낮음
비선형낮음높음
  • 선형모델은 학습데이터에서 타겟값과 오차가 크므로 편향이 크며 훈련/테스트 두 데이터에서 그 오차가 상대적으로 비슷함으로 분산이 작다
  • 비선형모델은 학습데이터에서 타겟값과의 오차가 작으므로 편향이 작고 훈련/테스트 두 데이터에서 그 오차가 상대적으로 크므로 분산이 크다

[찾아볼 내용]👀

* 분산-편향 trade-off의 좀 더 상세한 내용
y=f(x)+ε{\displaystyle y=f(x)+\varepsilon } , ε(노이즈)\varepsilon(노이즈)~N(0,σ2)N(0,\sigma^2)
D={(x1,y1),(xn,yn)}{\displaystyle D=\{(x_{1},y_{1})\dots ,(x_{n},y_{n})\}}

ED[(yf^(x;D))2]=(BiasD[f^(x;D)])2+VarD[f^(x;D)]+σ2{\displaystyle \operatorname {E} _{D}{\Big [}{\big (}y-{\hat {f}}(x;D){\big )}^{2}{\Big ]}={\Big (}\operatorname {Bias} _{D}{\big [}{\hat {f}}(x;D){\big ]}{\Big )}^{2}+\operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}+\sigma ^{2}}

  • 평균제곱오차(MSE) ~ ED[(yf^(x;D))2]{\displaystyle \operatorname {E} _{D}{\Big [}{\big (}y-{\hat {f}}(x;D){)^{2}{\Big ]}}}

  • 편향(Bias) ~ BiasD[f^(x;D)]=ED[f^(x;D)]f(x){\displaystyle \operatorname {Bias} _{D}{\big [}{\hat {f}}(x;D){\big ]}=\operatorname {E} _{D}{\big [}{\hat {f}}(x;D){\big ]}-f(x)}

    노이즈를 바꿔가며 반복적 모델링 했을 때 그 모델의 평균(추정했던 추정값 평균)이 얼마나 실제 정답과 가까운지

  • 분산(Variance) ~ VarD[f^(x;D)]=ED[(ED[f^(x;D)]f^(x;D))2]{\displaystyle \operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}=\operatorname {E} _{D}[{\big (}\operatorname {E} _{D}[{\hat {f}}(x;D)]-{\hat {f}}(x;D){\big )}^{2}]}

    노이즈 바꿔가며 반복적 모델링 했을 때 개별적 모델링에서의 추정값들추정값들의 평균과 얼마나 퍼진 정도를 보이는지

0개의 댓글