[CS229] 3 - Classification and Logistic Regression

Spark·2025년 5월 18일

CS229

목록 보기

3/3

다룰 내용들

Logistic regression
perceptron learning algorithm
Newton's method

2.1) Logistic regression

이거 만들어 보는 것이 목표입니다. 0과 1의 두 클래스로 분류가 가능한, $y \in \{0,1\}$ 의 binary classification problem의 새로운 해를 제시합니다.

왜 Linear Regression은 안되는가?

먼저로는 새로운 데이터가 오른쪽 저 멀리 생긴다고 할 때, 선의 기울기가 눕혀질텐데, 사실 오른쪽 끝으로 가는 데이터는 outlier도 아니기 때문에 문제가 발생합니다.
그리고 값들이 0 미만이나 1 초과가 가능한데, 이는 좋지 않은 예측입니다.

이러한 이유로, 우리는 $h_\theta(x)$ 를 수정할 필요가 있습니다:

h_\theta(x) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^Tx}}, \\ g(z) = \frac{1}{1+e^{-z}}

이 함수는 logistic function이나, sigmoid function으로 불립니다. g(z)의 그래프 보고 가시죠.

z가 음수로 갈 수록, 0에 가까워지고, 양수로 갈 수록, 1에 가까워지는 모습을 볼 수 있습니다. 이 함수를 통해, 언제나 0과 1 사이에 값이 놓여져 있도록 보장합니다.

다음으로 넘어가기 전에, logistic regression 함수의 유용한 미분 특성을 알아봅시다.

\begin{aligned} g'(z) &= \frac{d}{dz} \left( \frac{1}{1 + e^{-z}} \right) \\ &= \frac{1}{(1 + e^{-z})^2} \cdot (e^{-z}) \\ &= \frac{1}{(1 + e^{-z})} \cdot \left( 1 - \frac{1}{1 + e^{-z}} \right) \\ &= g(z)(1 - g(z)) \end{aligned}

그렇다면, 이를 이용해서 어떻게 $\theta$ 를 학습시킬 수 있을까요? Linear regression에서 보였던 것 처럼, 모델을 probabilistic assumption으로 옮겨서, maxiomum likelihood를 통해 학습시킬 수 있습니다.

P(y=1|x;\theta)=h_\theta(x) \\ P(y=0|x;\theta)=1-h_\theta(x) \\

으로 가정해봅시다. 이를 아래와 같이 표현할 수 있습니다:

p(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y}

우리가 $n$ 개의 학습 샘플이 독립적으로 생성되었다고 가정하면, 파라미터 $\theta$ 의 우도 함수는 다음과 같이 쓸 수 있습니다:

\begin{aligned} L(\theta) &= p(\vec{y} \mid X; \theta) \\ &= \prod_{i=1}^{n} p(y^{(i)} \mid x^{(i)}; \theta) \\ &= \prod_{i=1}^{n} \left( h_\theta(x^{(i)}) \right)^{y^{(i)}} \left( 1 - h_\theta(x^{(i)}) \right)^{1 - y^{(i)}} \end{aligned}

앞서와 마찬가지로, 로그 우도 함수(log likelihood)를 최대화하는 것이 계산상 더 편리하므로 다음과 같이 정의합니다:

\begin{aligned} \ell(\theta) &= \log L(\theta) \\ &= \sum_{i=1}^{n} y^{(i)} \log h(x^{(i)}) + (1 - y^{(i)}) \log (1 - h(x^{(i)})) \end{aligned}

우리는 $\theta$ 를 학습하기 위해서 gradient ascent (경사 상승법)을 사용합니다. Linear regression은 gradient descent (경사 하강법)을 사용했는데, 이는 $J(\theta)$ 가 최소가 되게 하는 $\theta$ 를 학습했기 때문입니다.
반대로 logistic regression에서는 $\ell(\theta)$ 가 최대가 되게 하는 $\theta$ 를 학습해야 하기 때문에, gradient ascent를 사용합니다.

벡터 표기법으로는 다음과 같이 업데이트합니다:

\theta := \theta + \alpha \nabla_\theta \ell(\theta)

(※ 여기서는 최대화이므로, 업데이트 식에서 부호가 양수입니다.)

하나의 훈련 예제 $(x, y)$ 를 가지고 미분을 통해 확률적 경사 상승 규칙을 유도해 봅시다:

\begin{aligned} \frac{\partial}{\partial \theta_j} \ell(\theta) &= \left( \frac{y}{g(\theta^T x)} - \frac{1 - y}{1 - g(\theta^T x)} \right) \cdot \frac{\partial}{\partial \theta_j} g(\theta^T x) \\ &= \left( \frac{y}{g(\theta^T x)} - \frac{1 - y}{1 - g(\theta^T x)} \right) \cdot g(\theta^T x)(1 - g(\theta^T x)) \cdot \frac{\partial}{\partial \theta_j} (\theta^T x) \\ &= \left( y(1 - g(\theta^T x)) - (1 - y)g(\theta^T x) \right) x_j \\ &= (y - h_\theta(x)) x_j \end{aligned}

여기서 $h_\theta(x) = g(\theta^T x)$ 는 시그모이드 함수입니다.
이를 사용해서, 아래와 같은 gradient ascent rule을 작성할 수 있습니다:

\theta_j := \theta_j (y^{(i)}-h_\theta(x^{(i)})x_j^{(i)}

신비롭게도, 우리가 구한 공식은 linear regression의 LMS update rule과 아주 유사한 공식을 유도해 냈습니다 ( $h_\theta(x^{(i)})$ 가 다르기 때문에).
이것은 단순한 우연일까요? 아니요! 이에 대한 답은 GLM (generalized linear model)에서 제공합니다.

2.2) Digression: the perceptron learning algorithm

로지스틱 회귀가 출력을 확률 값으로 (0~1)로 반환했다면, perceptron은 출력을 0 또는 1로 강제합니다.
이를 위해 로지스틱 회귀의 시그모이드 함수 $g(z)$ 대신, 계단 함수 (threshold function)으로 정의를 바꿉니다.

g(z) = \begin{cases} 1 & \text{if } z \geq 0 \\ 0 & \text{if } z < 0 \end{cases}

이제 예측 함수 $h_\theta(x)=g(\theta^Tx)$ 는 확률이 아닌, 이진출력 (0 또는 1)을 반환합니다.

Perceptron learning algorithm

1960년대에, 뇌의 뉴런 모델을 단순화했다고 해서 붙여진 이름입니다. 로지스틱 회귀와 비슷해 보이지만, 전혀 다른 방식입니다. 로지스틱 회귀는 확률적 해석과 우도 최대화 (maximum likelihood)가 가능하지만, perceptron은 그러한 통계적 해석이 전혀 불가능합니다.

로지스틱 회귀에서와 마찬가지로, Perceptron도 경사 상승과 비슷한 업데이트 규칙을 사용합니다:

\theta_j := \theta_j + \alpha \left( y^{(i)} - h_\theta(x^{(i)}) \right) x_j^{(i)}

이 식은 다음 의미를 가집니다:

$y^{(i)}$ : 실제 값
$h_\theta(x^{(i)})$ : 예측 값 (0 또는 1)
$x_j^{(i)}$ : 입력 벡터의 j번째 성분
$\alpha$ : 학습률

→ 예측이 틀렸을 때만 파라미터를 업데이트합니다.

2.3) Another algorithm for maximizeing $\ell(\theta)$

로지스틱 회귀는 closed form solution이 없습니다.
수치 해석학의 Newton's method를 사용해서, 정답에 가장 가까운 값을 근사할 수 있습니다.

시작 $f(x)$ 와 1st step입니다. $x$ 를 4.5로 initialize한다면, tangent line을 그려서 $f(x)=0$ 이 되는 선을 그려서 $x$ 를 $f(x)$ 가 0이 되는 $x$ 의 값으로 가깝게 갈 수 있습니다.

여기서 가로를 $\Delta x$ , 세로를 $f(x)$ 라고 할 때, $x_1 := x_0 - \Delta$ 라는 식을 만들 수 있습니다 ( $x_i$ 는 i번째 step의 $x$ ).

$f'(x_0) = \frac{f(x_0)}{\Delta}$ 임을 이용해서, $\Delta$ 를 치환해보면:

x_1 = x_0 - \frac{f(x)}{f'(x)}

가 성립합니다. 다음 스텝을 통해 이해해봅시다:

우리가 구하고자 하는 $x$ 는 $\theta$ 이며, 목표 함수인 $f(x)$ 은 $\ell'(\theta)$ 와 같습니다.
$\ell$ 의 미분값은 maxima에 근접할 수록 0이 되는 양상을 보이고, 최고값은 $\ell ' (\theta)=0$ 인 곳에 있습니다.
그렇기에 $\ell ' (\theta)$ 를 사용합니다. 아래를 Newton's method, 또는 Newton-Raphson method라고 부릅니다.

\theta := \theta - \frac{\ell ' (\theta)}{\ell ''(\theta)}

마지막으로, 우리의 로지스틱 회귀에서는 $\theta$ 는 벡터 값이기 때문에, 우리는 뉴턴 함수의 일반화가 필요합니다. 여러 차원에서의 설정을 해봅시다.

\theta := \theta - H ^{-1} \nabla_\theta \ell(\theta)

여기서 $H_{ij}$ 는 Hessian이라는 $\mathbb R^{d+1 \times d+1}$ (intercept term 포함) 차원의 행렬입니다.
아래와 같이 정의되지만, 이게 정확히 어떤 역할을 하는지는 이해하지 않아도 괜찮습니다.

H_{ij} = \frac{\partial^2 \ell(\theta)}{\partial \theta_i \partial \theta_j}

하지만, 더 중요한 점은 저희가 d (입력 특성 수)가 커질수록, Hessian 행렬을 구하기 위해 계산 비용이 제곱으로 증가합니다.
일반적인 경우에서는 Newton's Method가 훨씬 더 빠르지만, d가 너무 커질 경우, 우리는 돌아가 gradient ascent를 사용하는 것을 고려할 필요가 있습니다.

마치며

이번 글에서는 로지스틱 회귀 + $\alpha%=$ 를 배워보았습니다. 선형 회귀가 연속적인 변수를 예측하는데 사용된다면, 로지스틱 회귀는 이산적인 변수를 예측하는데 사용됩니다. 이 둘은 굉장히 유사한 경사 하강/상승법을 가지고 있는데, 이 점을 바로 다음 시간에 Generalized linear model로 하나로 아우를 수 있습니다. 선형 회귀와 로지스틱 회귀의 융합, 기대되지 않나요?

궁금하신 점은 언제나 환영입니다.
오늘도 반짝이는 하루 되세요.

Spark

SNU IPAI 25'

이전 포스트

[CS229] 3 - Classification and Logistic Regression

CS229

다룰 내용들

2.1) Logistic regression

왜 Linear Regression은 안되는가?

2.2) Digression: the perceptron learning algorithm

Perceptron learning algorithm

2.3) Another algorithm for maximizeing $\ell(\theta)$

마치며

[CS229] 2 - Linear Regression and Gradient Descent

0개의 댓글

[CS229] 3 - Classification and Logistic Regression

CS229

다룰 내용들

2.1) Logistic regression

왜 Linear Regression은 안되는가?

2.2) Digression: the perceptron learning algorithm

Perceptron learning algorithm

2.3) Another algorithm for maximizeing ℓ(θ)\ell(\theta)ℓ(θ)

마치며

[CS229] 2 - Linear Regression and Gradient Descent

0개의 댓글

2.3) Another algorithm for maximizeing $\ell(\theta)$