로지스틱 회귀에서의 경사하강법과 오버피팅의 문제

YoungJae Kang·2025년 4월 6일
0

머신러닝 학습

목록 보기
5/14
post-thumbnail

1. 로지스틱 회귀에서의 파라미터 최적화

모델의 예측 함수

f(x)=11+e(wx+b)f(x) = \frac{1}{1 + e^{-(w \cdot x + b)}}

새로운 입력값 xx (예: 종양 크기, 환자 연령)를 넣으면 y=1일 확률을 예측


2. 경사 하강법의 작동 방식

일반적인 경사 하강법 식

wj:=wjαJwjw_j := w_j - \alpha \cdot \frac{\partial J}{\partial w_j}

b:=bαJbb := b - \alpha \cdot \frac{\partial J}{\partial b}

α\alpha: 학습률(learning rate), 너무 크면 발산하고 너무 작으면 수렴 속도가 느림


3. 로지스틱 회귀의 비용 함수 도함수

  • 로지스틱 회귀의 비용 함수는 다음과 같이 미분됨

wjw_j에 대한 도함수

Jwj=1mi=1m(f(i)y(i))xj(i)\frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)}) \cdot x_j^{(i)}

bb에 대한 도함수

Jb=1mi=1m(f(i)y(i))\frac{\partial J}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)})

xj(i)x_j^{(i)}: ii번째 샘플의 jj번째 특성


4. 선형 회귀와의 차이점

  • 선형 회귀와 업데이트 공식은 동일해 보이지만, 예측 함수 ff가 다름
  • 선형 회귀: f(x)=wx+bf(x) = w \cdot x + b
  • 로지스틱 회귀: f(x)=11+e(wx+b)f(x) = \frac{1}{1 + e^{-(w \cdot x + b)}}

따라서 모양은 비슷해도 완전히 다른 알고리즘


5. 특징 스케일링의 중요성


6. 과적합 vs 과소적합

예시:

최적의 모델은 편향과 분산이 모두 적절한 수준으로 균형을 이루는 경우


7. 과적합을 줄이는 세 가지 방법

  1. 더 많은 훈련 데이터 확보
  2. 특징 수 줄이기 (Feature Selection)
  3. 정규화 (Regularization)

정규화는 모델 복잡도를 낮춰 과적합을 줄이는 데 효과적


8. 정규화된 비용 함수

수식:

J(w,b)=1mi=1mLoss(f(i),y(i))+λ2mj=1nwj2J(w, b) = \frac{1}{m} \sum_{i=1}^{m} \text{Loss}(f^{(i)}, y^{(i)}) + \frac{\lambda}{2m} \sum_{j=1}^{n} w_j^2

  • λ\lambda: 정규화 파라미터, 모델의 복잡도를 제어
  • λ=0\lambda = 0이면 정규화 없음 → 과적합 가능성 ↑
  • λ\lambda가 너무 크면 모델이 단순해져 underfitting 발생 가능

9. 정규화된 경사 하강법 업데이트

파라미터 업데이트 식:

wj:=wjα(1mi=1m(f(i)y(i))xj(i)+λmwj)w_j := w_j - \alpha \cdot \left(\frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)}) \cdot x_j^{(i)} + \frac{\lambda}{m} w_j \right)

b:=bα1mi=1m(f(i)y(i))b := b - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)})

bb는 일반적으로 정규화하지 않음


10. 정규화의 직관적 이해

profile
Data_Analyst

0개의 댓글