[Pattern Recognition] 06. Logistic Regression

김기진·2025년 12월 22일

pattern-recognition

목록 보기
6/10

로지스틱 회귀란

  • 로지스틱 회귀
    • 이진 분류에 사용되는 통계적 방법으로 주어진 입력이 특정 클래스에 속할 0 과 1 사이 확률을 예측
  • 수학적 모델
    • 시그모이드 함수를 사용
  • 특징
    • 이진 분류에 이상적
    • 데이터가 선형 분리 가능할때 잘 동작
    • 확률 점수를 출력하므로 임계값 기반의 의사 결정 가능
    • 구현하고 해석하기 쉬운 알고리즘
  • 구성 요소
    • 가설 함수: 로지스틱 회귀
    • 비용 함수: 최대 우도 추정(=크로스 엔트로피)

시그모이드

σ(z)=11+ez (z 는 입력 특징과 가중치의 선형 결합)\sigma(z) = \frac{1}{1 + e^{-z}} \text{ (z 는 입력 특징과 가중치의 선형 결합)}
  • 시그모이드 함수
    • 입력의 선형 결합을 0과 1사이의 확률 값으로 변환함
  • 모양
    • s자 모양으로 0과 1 사이를 부드럽게 전환
    • 0.5 에 대해 대칭 (z=0일때a=0.5z=0 일때 a=0.5)

오즈와 로그오즈

  • 오즈: Odds=p1pOdds = \frac{p}{1-p}

    • 사건이 일어날 확률과 일어나지 않을 확률의 비율
    • 오즈가 1보다 크면 사건이 일어날 확률이 작으면 일어나지 않을 확률이 더 높음
    • 예를 들어 오즈가 3인 경우 사건이 일어날 확률이 3배 높음
  • 로짓 변환(로그 오즈): log(odds)=logit(p)=log(p1p)log(odds) = logit(p) = log(\frac{p}{1-p})

    • 오즈에 로그를 취한 형태
    • 정의역(pp): [0,1][0,1], 오즈: [0,+][0, +\infty] 치역: [,+][-\infty, +\infty]
  • 로짓 변환에서 왜 로그를 취하는가

    • 오즈 자체는 입력 특성과 비선형적인 관계
    • 로그를 취하면 입력 특징에 대한 선형적 결합으로 표현 가능
    • 선형 형태는 분류 문제에 회귀 기술을 적용 할 수 있도록 해줌

로짓변환과 시그모이드

  • 로지스틱 회귀는 입력 특징의 선형 결합이 로그 오즈에 대응한다고 가정한다.
  • 로그 오즈에 대한 식을 확률값 p 에 대한 식으로 정리하면 시그모이드 함수이다.

결정 경계

  • 특징 공간에서 서로 다른 클래스를 분리하는 경계선
  • 결정 경계는 모델이 0.5를 예측하는 지점 (wTX+b=0w^TX + b = 0) 에서 발생

우도함수

  • 목표

    • 우도 함수는 모델이 데이터를 얼마나 잘 설명하는지 측정하는 척도를 제공
    • 우도를 최대화 하는 최적의 w, b 찾기
  • 우도 함수

    • 확률 P(y=1X)P(y=1|X)1P(y=1X)1-P(y=1|X) 를 고려
  • 모든 샘플에 대한 우도함수: 모든 샘플의 확률 곱

    • L(θ)=L(w,b)=i=1nP(yiXi;w,b)=i=1nP(y=1Xi)yi(1P(y=1Xi))1yiL(\theta) = L(w, b) = \prod_{i=1}^n P(y_i | X_i; w, b) = \prod_{i=1}^n P(y=1|X_i)^{y_i} (1 - P(y=1|X_i))^{1 - y_i}
  • 로그 우도

    • logL(w,b)=i=1n[yilog(P(y=1Xi))+(1yi)log(1P(y=1Xi))]logL(w,b) = \sum_{i=1}^n [y_i log(P(y=1|X_i)) + (1 - y_i) log(1 - P(y=1|X_i))]

우도 함수와 크로스엔트로피

  • 음의 로그 우도 (Negative log-likelihood) (총합)
    • logL(w,b)=i=1m[yilog(y^i)+(1yi)log(1y^i)]-logL(w,b) = -\sum_{i=1}^m [y_i log(\hat{y}_i) + (1 - y_i) log(1 - \hat{y}_i)]
  • (이진) 크로스 엔트로피 (Binary) Cross-entropy (평균)
    • J(w,b)=1mi=1m[yilog(y^i)+(1yi)log(1y^i)]J(w,b) = -\frac{1}{m} \sum_{i=1}^m [y_i log(\hat{y}_i) + (1 - y_i) log(1 - \hat{y}_i)]
  • 음의 로그 우도 vs 크로스 엔트로피
    • NNL 함수와 크로스 엔트로피 함수 모두 확률적 분류에서 오차를 최소화하므로 수학적으로 동일
  • 왜 크로스엔트로피에는 1/m1/m 을 곱하는가
    • 1/m1/m 을 곱해 손실 함수가 데이터 셋의 크기에 독립적이 되도록함.
      • 확장성: 샘플 수가 커져도 적절하게 확장되도록 함
      • 정규화: 샘플 수와 관계 없이 일관된 크기의 그레디언트 업데이트**를 제공하도록

요약

  • 로지스틱 회귀는 이진 분류에 사용되는 통계적 방법으로 0 에서 1 사이의 확률을 예측
  • 시그모이드 함수는 입력 특징의 선형 결합을 확률 값으로 변환
  • 시그모이드 함수는 로그 오즈 함수의 역함수로부터 파생됨

  • 선형 회귀는 연속적인 실수를 출력
  • 로지스틱 회귀는 확률 값을 출력
  • 선형 회귀는 입력 출력 간의 직접적인 선형 관계를 모델링.
  • 로지스틱 회귀는 이진 결과의 확률을 모델링 하기위해 시그모이드 함수를 사용

  • 크로스엔트로피 비용 함수는 최대 우도 추정을 사용하여 유도 할 수 있음
  • 음의 로그 우도와 크로스 엔트로피는 수학적으로 동일
  • 크로스 엔트로피는 1/m1/m 을 곱해서 손실을 데이터 크기와 독립적으로 확장성과 정규화 특징을 가질 수 있게함

0개의 댓글