1. 로지스틱 회귀에서의 파라미터 최적화
f(x)=1+e−(w⋅x+b)1
새로운 입력값 x (예: 종양 크기, 환자 연령)를 넣으면 y=1일 확률을 예측
2. 경사 하강법의 작동 방식
wj:=wj−α⋅∂wj∂J
b:=b−α⋅∂b∂J
α: 학습률(learning rate), 너무 크면 발산하고 너무 작으면 수렴 속도가 느림
3. 로지스틱 회귀의 비용 함수 도함수
- 로지스틱 회귀의 비용 함수는 다음과 같이 미분됨
∂wj∂J=m1∑i=1m(f(i)−y(i))⋅xj(i)
∂b∂J=m1∑i=1m(f(i)−y(i))
xj(i): i번째 샘플의 j번째 특성
4. 선형 회귀와의 차이점
- 선형 회귀와 업데이트 공식은 동일해 보이지만, 예측 함수 f가 다름
- 선형 회귀: f(x)=w⋅x+b
- 로지스틱 회귀: f(x)=1+e−(w⋅x+b)1
따라서 모양은 비슷해도 완전히 다른 알고리즘
5. 특징 스케일링의 중요성
6. 과적합 vs 과소적합
예시:
최적의 모델은 편향과 분산이 모두 적절한 수준으로 균형을 이루는 경우
7. 과적합을 줄이는 세 가지 방법
- 더 많은 훈련 데이터 확보
- 특징 수 줄이기 (Feature Selection)
- 정규화 (Regularization)
정규화는 모델 복잡도를 낮춰 과적합을 줄이는 데 효과적
8. 정규화된 비용 함수
J(w,b)=m1∑i=1mLoss(f(i),y(i))+2mλ∑j=1nwj2
- λ: 정규화 파라미터, 모델의 복잡도를 제어
- λ=0이면 정규화 없음 → 과적합 가능성 ↑
- λ가 너무 크면 모델이 단순해져 underfitting 발생 가능
9. 정규화된 경사 하강법 업데이트
wj:=wj−α⋅(m1∑i=1m(f(i)−y(i))⋅xj(i)+mλwj)
b:=b−α⋅m1∑i=1m(f(i)−y(i))
b는 일반적으로 정규화하지 않음
10. 정규화의 직관적 이해