로지스틱 회귀에서의 경사하강법과 오버피팅의 문제

YoungJae Kang·2025년 4월 6일

5주차 ML jupyter notebook 경사하강법 과대적합 과소적합 로지스틱 회귀 분석 머신러닝

머신러닝 학습

목록 보기

5/14

1. 로지스틱 회귀에서의 파라미터 최적화

로지스틱 회귀에서 모델의 성능을 향상시키기 위해 파라미터 $w$ 와 $b$ 를 조정해야 함
목표는 비용 함수 $J(w, b)$ 를 최소화하는 최적의 파라미터 값을 찾는 것
이를 위해 경사 하강법(Gradient Descent)을 사용

모델의 예측 함수

$f(x) = \frac{1}{1 + e^{-(w \cdot x + b)}}$

새로운 입력값 $x$ (예: 종양 크기, 환자 연령)를 넣으면 y=1일 확률을 예측

2. 경사 하강법의 작동 방식

경사 하강법은 비용 함수 $J(w, b)$ 가 가장 작아지는 방향으로 $w$ 와 $b$ 를 반복적으로 업데이트

일반적인 경사 하강법 식

$w_j := w_j - \alpha \cdot \frac{\partial J}{\partial w_j}$

$b := b - \alpha \cdot \frac{\partial J}{\partial b}$

$\alpha$ : 학습률(learning rate), 너무 크면 발산하고 너무 작으면 수렴 속도가 느림

3. 로지스틱 회귀의 비용 함수 도함수

로지스틱 회귀의 비용 함수는 다음과 같이 미분됨

$w_j$ 에 대한 도함수

$\frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)}) \cdot x_j^{(i)}$

$b$ 에 대한 도함수

$\frac{\partial J}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)})$

$x_j^{(i)}$ : $i$ 번째 샘플의 $j$ 번째 특성

4. 선형 회귀와의 차이점

선형 회귀와 업데이트 공식은 동일해 보이지만, 예측 함수 $f$ 가 다름
선형 회귀: $f(x) = w \cdot x + b$
로지스틱 회귀: $f(x) = \frac{1}{1 + e^{-(w \cdot x + b)}}$

따라서 모양은 비슷해도 완전히 다른 알고리즘

5. 특징 스케일링의 중요성

로지스틱 회귀에서도 특징 스케일링(feature scaling)은 학습 속도 향상에 효과적
예: 모든 특성값을 -1 ~ 1 범위로 정규화하면 경사 하강법의 수렴 속도 향상

6. 과적합 vs 과소적합

과적합(overfitting): 모델이 훈련 데이터에 너무 과하게 적합하여 새로운 데이터에 일반화되지 못함
과소적합(underfitting): 모델이 데이터의 패턴을 충분히 학습하지 못함

예시:

저차수 모델: 단순 직선 → underfitting, 편향(bias)이 높음
고차수 모델: 복잡한 곡선 → overfitting, 분산(variance)이 높음

최적의 모델은 편향과 분산이 모두 적절한 수준으로 균형을 이루는 경우

7. 과적합을 줄이는 세 가지 방법

더 많은 훈련 데이터 확보
- 데이터가 많을수록 일반화 성능 향상
특징 수 줄이기 (Feature Selection)
- 가장 관련성 높은 특성만 사용하여 과적합 방지
정규화 (Regularization)
- 비용 함수에 페널티 항 추가하여 파라미터 크기를 줄임

정규화는 모델 복잡도를 낮춰 과적합을 줄이는 데 효과적

8. 정규화된 비용 함수

수식:

$J(w, b) = \frac{1}{m} \sum_{i=1}^{m} \text{Loss}(f^{(i)}, y^{(i)}) + \frac{\lambda}{2m} \sum_{j=1}^{n} w_j^2$

$\lambda$ : 정규화 파라미터, 모델의 복잡도를 제어
$\lambda = 0$ 이면 정규화 없음 → 과적합 가능성 ↑
$\lambda$ 가 너무 크면 모델이 단순해져 underfitting 발생 가능

9. 정규화된 경사 하강법 업데이트

파라미터 업데이트 식:

$w_j := w_j - \alpha \cdot \left(\frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)}) \cdot x_j^{(i)} + \frac{\lambda}{m} w_j \right)$

$b := b - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} (f^{(i)} - y^{(i)})$

$b$ 는 일반적으로 정규화하지 않음

10. 정규화의 직관적 이해

매 반복마다 $w_j$ 에 1보다 약간 작은 수를 곱하는 효과 → 점진적으로 파라미터 크기 감소
모델이 복잡해지는 것을 억제하여 일반화 성능 향상

YoungJae Kang

Data_Analyst

이전 포스트

로지스틱 회귀분석과 기능함수

다음 포스트

로지스틱 회귀에서의 경사하강법과 오버피팅의 문제

머신러닝 학습

1. 로지스틱 회귀에서의 파라미터 최적화

모델의 예측 함수

2. 경사 하강법의 작동 방식

일반적인 경사 하강법 식

3. 로지스틱 회귀의 비용 함수 도함수

$w_j$ 에 대한 도함수

$b$ 에 대한 도함수

4. 선형 회귀와의 차이점

5. 특징 스케일링의 중요성

6. 과적합 vs 과소적합

예시:

7. 과적합을 줄이는 세 가지 방법

8. 정규화된 비용 함수

수식:

9. 정규화된 경사 하강법 업데이트

파라미터 업데이트 식:

10. 정규화의 직관적 이해

로지스틱 회귀분석과 기능함수

신경망(Neural Network)과 딥러닝의 이해

0개의 댓글

로지스틱 회귀에서의 경사하강법과 오버피팅의 문제

머신러닝 학습

1. 로지스틱 회귀에서의 파라미터 최적화

모델의 예측 함수

2. 경사 하강법의 작동 방식

일반적인 경사 하강법 식

3. 로지스틱 회귀의 비용 함수 도함수

wjw_jwj​에 대한 도함수

bbb에 대한 도함수

4. 선형 회귀와의 차이점

5. 특징 스케일링의 중요성

6. 과적합 vs 과소적합

예시:

7. 과적합을 줄이는 세 가지 방법

8. 정규화된 비용 함수

수식:

9. 정규화된 경사 하강법 업데이트

파라미터 업데이트 식:

10. 정규화의 직관적 이해

로지스틱 회귀분석과 기능함수

신경망(Neural Network)과 딥러닝의 이해

0개의 댓글

$w_j$ 에 대한 도함수

$b$ 에 대한 도함수