[머신러닝] 다시 공부하는 머신러닝 2일차

Andrew Kim·2023년 1월 25일

ML

목록 보기

2/4

$MSE(\hat{\theta}) = E_{\theta}((\hat{\theta}-\theta)^2) = E(\hat{\theta}-E(\hat{\theta})+E(\hat{\theta})-\theta)^2) = E((\hat{\theta}-E(\hat{\theta}))^2+2(\hat{\theta}-E(\hat{\theta}))(E(\hat{\theta})-\theta)+(E(\hat{\theta})-\theta))^2) = E((\hat{\theta}-E(\hat{\theta}))^2)+(E(\hat{\theta})-\theta)^2 = Var_{\theta}(\hat{\theta})+Bias_{\theta}(\hat{\theta},\theta)^2$

여기서 Bias와 Variance를 잘 살펴봐야한다.

$MSE(\hat{\theta})= Var_{\theta}(\hat{\theta})+Bias_{\theta}(\hat{\theta},\theta)^2$

Variance: 예측값들이 한 곳에 모여 있지 못하고 분산되어 있으면 Variance가 크다.
Bias: 예측값의 평균값이 $\theta$ (실제 정답) 값에 가까우면 Bias가 작다.

Bias는 underfitting에 관련되어 있다!! (Bias가 너무 크면 underfitting의 가능성이 높아진다.)
Variance는 overfitting에 관련되어 있다!! (Variance가 크면 overfitting의 가능성이 높아짐)

그렇기에 둘 중 무조건 하나는 포기해야하는 양상을 가지고 있다.

(모델 복잡도 관련된 그래프 사진 첨부)

해결방안

검증 데이터셋
K-fold cross validation
정규화 손실함수

1. 검증 데이터셋

기존 데이터 셋의 분리: train set + test set
검증 데이터 셋을 포함한 데이터 셋의 분리: train set + valid set + test set

valid set 이란?

학습에 사용되지 않는 데이터
테스트 시에도 사용되지 않는 데이터
결국 학습 중간에 평가의 용도, 가장 성능이 좋은 파라미터를 저장해놓는다.

(검증 데이터셋 사용에 대한 사진 첨부)

LOOCV(Leave out one cross validation)

랜덤으로 생성된 검증 데이터셋은 편향된 결과를 불러옴
간단하게 모든 데이터셋 샘플 한개마다 검증을 진행하는 방식
학습데이터가 $n$ 개라고 가정할시, 총 $n$ 번의 fitting을 진행하게 된다.

(LOOCV 관련 사진 첨부)

2. K-fold cross validation

앞선 LOOCV의 방식은 검증데이터가 1개이므로 학습 횟수가 매우 증가한다. 그렇기에 검증데이터 뭉텅이로 묶어서 검증을 진행하는 방식이다.

총 K개의 덩어리로 나누기 때문에 한 덩어리에는 $n/K$ 만큼의 크기를 가지고 있다.
총 K번의 fitting을 진행하면 된다.

(K-fold cross validation 사진 첨부)

K가 커지게 되면

학습데이터수 $\uparrow$
Bias 에러값 $\downarrow$ , Variance 에러값 $\uparrow$
계산 비용 $\uparrow$

3. 정규화 손실함수

모델이 점점 복잡해지면 모델의 파라미터가 많아진다.
결국 overfitting이 일어날 확률이 높아지기 때문에,
중요한 파라미터만 학습시켜서 overfitting을 막을 수 있는 방법
(필요없는 파라미터를 0으로 만들어버림)

정규화 종류

Ridge regression
Lasso regression

Ridge regression

$L = \Sigma_{i=1}^{n}(y_i-(\beta_0+\Sigma_{j=1}^D{\beta_jx_{ij}}))^2$ + $\lambda\Sigma_{j=1}^{D}\beta_j^2$

정규화 식이 제곱의 합으로 표현됨
$\lambda$ 는 정규화의 영향을 조절하는 하이퍼파라미터
MSE 손실을 줄이지 못하면 페널티

Lasso regression

$L = \Sigma_{i=1}^{n}(y_i-(\beta_0+\Sigma_{j=1}^D{\beta_jx_{ij}}))^2$ + $\lambda\Sigma_{j=1}^{D}|\beta_j|$

정규화 식을 절대값의 합으로 표현함
$\lambda$ 는 마찬가지로 정규화의 영향을 조절하는 하이퍼파라미터

결국
1. $\lambda$ 가 커지면, 모델의 파라미터가 많이 0으로 변함 $\rightarrow$ 모델 복잡도 $\downarrow$
2. underfitting이 일어나는 시나리오 $\rightarrow$ Bias error $\uparrow$ , Variance error $\downarrow$
3. parameter의 희소성: Ridge 정규화 $<$ Lasso 정규화