로지스틱 회귀 (Logistic Regression)

조은별·2025년 5월 10일
post-thumbnail

이 문서는 로지스틱 회귀(Logistic Regression)에 대해 강의를 들으면서 정리한 내용입니다.
처음엔 선형 회귀랑 뭐가 다른지 혼동했는데, 확률 기반 분류라는 점과
시그모이드 함수, 코스트 펑션(Log Loss)의 구조가 꽤 직관적으로 이어져 있어서 따로 정리해두기로 했습니다.


로지스틱 회귀 (Logistic Regression) 정리


1. 기본 개념

로지스틱 회귀는 바이너리 분류(binary classification) 문제를 푸는 대표적인 알고리즘입니다.

  • 선형 회귀 → 결과값이 연속적인 수치
  • 로지스틱 회귀 → 결과값이 범주형(클래스)
    (예: 0 또는 1, 스팸/정상, 합격/불합격)

2. 왜 선형 회귀로는 안 되는가?

처음엔 선형 회귀를 써도 되지 않나 싶었는데,
중간에 깨달은 문제점들이 아래와 같음:

  • 선형 회귀는 예측값이 0~1 범위를 벗어날 수 있음
  • 클래스 경계를 명확하게 나누지 못함
  • 확률 해석이 어려움

그래서 출력을 0~1 사이로 제한하는 시그모이드(Sigmoid) 함수를 적용해야 함.


3. 시그모이드 함수란?

시그모이드는 아래와 같은 함수:

σ(z) = 1 / (1 + e^{-z})
  • z는 선형 모델의 출력값 (ex. θᵀx)
  • 출력은 항상 0과 1 사이
    → 따라서 확률로 해석 가능

이 함수 덕분에 출력값이 0.5 이상이면 클래스 1,
아니면 클래스 0
으로 분류할 수 있음


4. 최적화를 위한 Cost Function

여기서 제일 중요한 게 "어떻게 좋은 가중치(θ)를 찾을 것인가"입니다.

선형 회귀에서는 MSE(Mean Squared Error)를 사용했지만,
로지스틱 회귀에서는 아래의 Log Loss (또는 Cross Entropy)를 사용합니다:


5. Log Loss 수식

J(θ) = - [ y log(h_θ(x)) + (1 - y) log(1 - h_θ(x)) ]
  • y: 실제 클래스 (0 또는 1)
  • h_θ(x): 시그모이드 출력값 (예측 확률)

이해 포인트:

  • 예측이 정확할수록 → Log Loss는 작아짐 (최소는 0)
  • 예측이 틀릴수록 → Log Loss는 커짐 (벌점)

6. 예제 상황별 해석

예측값(h)실제값(y)Cost
0.91매우 낮음
0.11매우 높음
0.50 or 1중간 정도
1.010 (완벽 예측)

그래서 확률 기반 판단이 가능함 (예: 50% 이상이면 1)


7. 한 줄 정리

  • 로지스틱 회귀는 선형 모델의 출력값을 시그모이드에 넣어서
    분류 경계(0 또는 1)로 해석함
  • 그 출력은 확률로 생각할 수 있음
  • MSE 대신 Log Loss를 사용해서 예측 정확도를 평가하고,
    경사 하강법(Gradient Descent)으로 파라미터 θ를 학습함

8. 내가 느낀 점 요약

  • 로지스틱 회귀는 "이진 분류"를 확률 기반으로 풀 수 있다는 점이 핵심
  • 수식도 복잡하지 않고, 시그모이드 함수 하나로 분류 + 확률 해석을 동시에 할 수 있음
  • 특히 Log Loss는 직관적으로 예측이 틀릴수록 페널티가 커져서
    실제 문제에서 학습 효율을 높이기에 좋음
profile
기록과 회고를 통해 성장하는 데이터, AI 엔지니어 지망생입니다.

0개의 댓글