참고 : KoreaUniv DSBA 영상
답을 알 수 없는 예측 데이터(Target)에 대한 오차의 기대값을 모델의 Bias와 Variance로 분해하는 것
위의 식을 그림으로 나타냄.
Bias(편향) :
Low bias : 반복적으로 수행했을 때 평균적으로 잘 맞출 수 있음
High bias : 과소 적합(under-fitting). 지나치게 단순한 모델로 인한 error. 모델이 무언가 중요한 것을 놓치고 있음(=A poor match)
Variance(분산) :
Low variance : 노이즈가 바뀌어도(=다른 데이터셋) 함수 추정값이 큰 영향을 받지 않음
High variance : 과대 적합(Over-fitting). 지나치게 복잡한 모델로 인한 error. 일반화가 되지 않은 모델 (=A weak match)
- Higher model complexity : Low Bias & High Variance
ex)
Decision Tree(의사결정나무) : 가지치기를 하지 않은 경우
ANN(인공신경망),SVM : 커널을 좁게 만든 경우
K-NN : K값을 작은 경우
=> 복잡도가 높은 모델들은 Bagging과 합이 잘 맞음
- Lower model complexity : High Bias & Low Variance
ex)
Logistic Regression(회귀와 같은 정규화기법)
LDA
K-NN : K값이 큰 경우
=> 복잡도가 낮은 모델들은 Boosting과 합이 잘 맞음
개별 모델들이 어떻게 하면 충분한 수준의 다양성(sufficient degree of diversity)을 얻을 수 있을까?(=서로 어떻게 하면 다른 모형을 만들어 낼 수 있을까?)⭐⭐⭐⭐⭐
개별 모델들을 어떻게 잘 결합할 것인가?
= 동일한 모델들을 합치는 것은 아무 의미 없다.
현실적(코시-슈바르츠 부등식을 이용) : 현실적으로 개별 모델이 독립이 아니라는 가정 하에서도 평균보다는 앙상블의 에러가 작다.(성능이 좋다) 실제로도 제일 성능이 좋은 개별모델보다 앙상블의 성능이 좋음.