[키워드]
- 다중회귀모델의 해석과 회귀평가지표
- train set/test set 분할
- overfitting/underfitting
- scikit-learn 통한 다중회귀
[학습내용]
- 단순회귀 모형에의 적합과 모형 해석
- 회귀모델의 평가지표들의 개념과 Scikit-learn에서의 구하는 방식
- scikit-learn 통한 다중회귀의 절차
- scikit-learn 통한 다항회귀 적합
- 분산-편향 trade-off
선형모델 : 편향 높음(타겟값과 오차 큼) / 분산 낮음 / 과소적합
비선형모델 : 편향 낮음(타겟값과 오차 작음)
- 선형모델은 학습데이터에서 타겟값과 오차가 크므로 편향이 크며 훈련/테스트 두 데이터에서 그 오차가 상대적으로 비슷함으로 분산이 작다
- 비선형모델은 학습데이터에서 타겟값과의 오차가 작으므로 편향이 작고 훈련/테스트 두 데이터에서 그 오차가 상대적으로 크므로 분산이 크다
[찾아볼 내용]👀
* 분산-편향 trade-off의 좀 더 상세한 내용
y=f(x)+ε , ε(노이즈)~N(0,σ2)
D={(x1,y1)…,(xn,yn)}
ED[(y−f^(x;D))2]=(BiasD[f^(x;D)])2+VarD[f^(x;D)]+σ2
-
평균제곱오차(MSE) ~ ED[(y−f^(x;D))2]
-
편향(Bias) ~ BiasD[f^(x;D)]=ED[f^(x;D)]−f(x)
노이즈를 바꿔가며 반복적 모델링 했을 때 그 모델의 평균(추정했던 추정값 평균)이 얼마나 실제 정답과 가까운지
-
분산(Variance) ~ VarD[f^(x;D)]=ED[(ED[f^(x;D)]−f^(x;D))2]
노이즈 바꿔가며 반복적 모델링 했을 때 개별적 모델링에서의 추정값들이 추정값들의 평균과 얼마나 퍼진 정도를 보이는지