[Pattern Recognition] 06. Logistic Regression

김기진·2025년 12월 22일

pattern-recognition

목록 보기

6/10

로지스틱 회귀
- 이진 분류에 사용되는 통계적 방법으로 주어진 입력이 특정 클래스에 속할 0 과 1 사이 확률을 예측
수학적 모델
- 시그모이드 함수를 사용
특징
- 이진 분류에 이상적
- 데이터가 선형 분리 가능할때 잘 동작
- 확률 점수를 출력하므로 임계값 기반의 의사 결정 가능
- 구현하고 해석하기 쉬운 알고리즘
구성 요소
- 가설 함수: 로지스틱 회귀
- 비용 함수: 최대 우도 추정(=크로스 엔트로피)

\sigma(z) = \frac{1}{1 + e^{-z}} \text{ (z 는 입력 특징과 가중치의 선형 결합)}

오즈: $Odds = \frac{p}{1-p}$
- 사건이 일어날 확률과 일어나지 않을 확률의 비율
- 오즈가 1보다 크면 사건이 일어날 확률이 작으면 일어나지 않을 확률이 더 높음
- 예를 들어 오즈가 3인 경우 사건이 일어날 확률이 3배 높음
로짓 변환(로그 오즈): $log(odds) = logit(p) = log(\frac{p}{1-p})$
- 오즈에 로그를 취한 형태
- 정의역( $p$ ): $[0,1]$ , 오즈: $[0, +\infty]$ 치역: $[-\infty, +\infty]$
로짓 변환에서 왜 로그를 취하는가
- 오즈 자체는 입력 특성과 비선형적인 관계
- 로그를 취하면 입력 특징에 대한 선형적 결합으로 표현 가능
- 선형 형태는 분류 문제에 회귀 기술을 적용 할 수 있도록 해줌

목표
- 우도 함수는 모델이 데이터를 얼마나 잘 설명하는지 측정하는 척도를 제공
- 우도를 최대화 하는 최적의 w, b 찾기
우도 함수
- 확률 $P(y=1|X)$ 와 $1-P(y=1|X)$ 를 고려
모든 샘플에 대한 우도함수: 모든 샘플의 확률 곱
- $L(\theta) = L(w, b) = \prod_{i=1}^n P(y_i | X_i; w, b) = \prod_{i=1}^n P(y=1|X_i)^{y_i} (1 - P(y=1|X_i))^{1 - y_i}$
로그 우도
- $logL(w,b) = \sum_{i=1}^n [y_i log(P(y=1|X_i)) + (1 - y_i) log(1 - P(y=1|X_i))]$

음의 로그 우도 (Negative log-likelihood) (총합)
- $-logL(w,b) = -\sum_{i=1}^m [y_i log(\hat{y}_i) + (1 - y_i) log(1 - \hat{y}_i)]$
(이진) 크로스 엔트로피 (Binary) Cross-entropy (평균)
- $J(w,b) = -\frac{1}{m} \sum_{i=1}^m [y_i log(\hat{y}_i) + (1 - y_i) log(1 - \hat{y}_i)]$
음의 로그 우도 vs 크로스 엔트로피
- NNL 함수와 크로스 엔트로피 함수 모두 확률적 분류에서 오차를 최소화하므로 수학적으로 동일
왜 크로스엔트로피에는 $1/m$ 을 곱하는가
- $1/m$ 을 곱해 손실 함수가 데이터 셋의 크기에 독립적이 되도록함.
  - 확장성: 샘플 수가 커져도 적절하게 확장되도록 함
  - 정규화: 샘플 수와 관계 없이 일관된 크기의 그레디언트 업데이트**를 제공하도록