[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 75

주재민·2024년 2월 2일

KDT TIL 데브코스 데이터 엔지니어 데이터 엔지니어링 머신러닝 선형분류모델 프로그래머스

[데브코스] 데이터 엔지니어링

목록 보기

64/73

📖 학습주제

머신러닝, Scikit-learn, 실전 머신러닝 문제 실습 (5)

선형분류 모델

선형 분류의 목표와 방법들

분류(classification)의 목표

입력벡터 $\textbf{x}$ 를 $K$ 개의 가능한 클래스 중에서 하나의 클래스로 할당하는 것

분류를 위한 결정이론

확률적 모델 (probabilistic model)
- 생성모델 (generative modle) : $p(\textbf{x}|C_k)$ 와 $p(C_k)$ 를 모델링한 다음 베이즈 정리를 사용해서 클래스의 사후 확률 $p(C_k|\textbf{x})$ 를 구한다. 또는 결합확률 $p(\textbf{x},C_k)$ 을 직접 모델링할 수도 있다.
- 식별모델 (discriminative model) : $p(C_k|\textbf{x})$ 를 직접적으로 모델링한다.
판별함수 (discriminant function) : 입력 $\textbf{x}$ 를 클래스로 할당하는 판별함수를 찾는다. 확률값은 계산하지 않는다.

판별함수 (Discriminant Functions)

입력 $\textbf{x}$ 를 클래스로 할당하는 판별함수를 찾는다.

두 개의 클래스

선형판별함수는 다음과 같다.

y(\textbf{x})=\textbf{w}^T\textbf{x}+w_0

$\textbf{w}$ : 가중치 벡터
$w_0$ : 바이어스

$y(\textbf{x}) \geq 0$ 인 경우 이를 $\mathcal{C}_1$ 으로 판별하고 아닌 경우 $\mathcal{C}_2$ 으로 판별한다.

결정 경계(decision boundary)

$y(\textbf{x})=0$
$D-1$ 차원의 hyperplane

결정 경계면 위의 임의의 두 점 $\textbf{x}_A, \textbf{x}_B$

$y(\textbf{x}_A)=y(\textbf{x}_B)=0$
$\textbf{w}^T\textbf{x}_A+w_0=0,\textbf{w}^T\textbf{x}_B+w_0=0$
$\textbf{w}^T(\textbf{x}_A-\textbf{x}_B)=0$ -> $\textbf{w}$ 는 결정 경계면에 수직

원점에서 결정경계면까지의 거리
벡터 $\textbf{w}_{\perp}$ 를 원점에서 결정 경계면에 대한 사영이라고 하자. 이 때, $w_0$ 은 결정 경계면의 위치를 결정한다.

$w_0 \lt 0$ 이면 결정 경계면은 원점으로부터 $\textbf{w}$ 가 향하는 방향으로 멀어져있다.
$w_0 \gt 0$ 이면 결정 경계면은 원점으로부터 $\textbf{w}$ 의 반대 방향으로 멀어져있다.

또한 $y(\textbf{x})$ 값은 $\textbf{x}$ 와 결정 경계면 사이의 부호화된 거리와 비례한다.

$y(\textbf{x}) \gt 0$ 이면 $\textbf{x}$ 는 결정 경계면을 기준으로 $\textbf{w}$ 가 향하는 방향에 있다.
$y(\textbf{x}) \lt 0$ 이면 $\textbf{x}$ 는 결정 경계면을 기준으로 $-\textbf{w}$ 가 향하는 방향에 있다.
$y(\textbf{x})$ 의 절대값이 클수록 더 멀리 떨어져 있다.

다수의 클래스

y_k(\textbf{x})=\textbf{w}_k^T\textbf{x}+w_k0 \quad (k=1,2, \cdots, K)

위와 같은 판별함수는 $j \neq k$ 일 때, $y_k(\textbf{x}) \gt y_j(\textbf{x})$ 를 만족하면 $\textbf{x}$ 를 클래스 $\mathcal{C}_k$ 로 판별한다. 따라서 $\mathcal{C}_k$ 와 $\mathcal{C}_j$ 사이의 결정 경계는 $y_k(\textbf{x}) = y_j(\textbf{x})$ 으로 표현된다. 이것은

(\textbf{w}_k-\textbf{w}_j)^T\textbf{x}+(w_{k0}-w_{j0})=0

으로 주어지는 초평면이다.

분류를 위한 최소제곱법

행렬 $\tilde{W}$ 을 사용하여 간편하게 나타낸다.

y_k(\textbf{x})=\tilde{W}^T \tilde{\textbf{x}}

$\tilde{W}$ 의 $k$ 번째 열은 $\tilde{w}_k=(w_{k0},\textbf{w}_k^T)^T$

제곱합 에러 함수를 사용한 판별 함수

y(\textbf{x})=\tilde{W}^T \tilde{\textbf{x}}=T^T(\tilde{X}^+)^T\tilde{\textbf{x}}

퍼셉트론 알고리즘(The perceptron algorithm)

y(\textbf{x})=f(\textbf{w}^T \phi(\textbf{x}))

여기서 $f$ 는 활성 함수로 퍼셉트론은 아래와 같은 계단형 함수를 사용한다.

f(a)= \begin{cases} +1,\;a\geq0\\ -1,\;a<0 \end{cases}

여기서 $\phi_0(\textbf{x})=1$

에러함수

잘못 분류된 $\textbf{x}$ 의 개수
-> $\textbf{w}$ 에 대해 piecewise constant인 함수

E_p(\textbf{w})=-\displaystyle\sum_{n \in \mathcal{M}}^{}\textbf{w}^T\phi_nt_n

목표값 $t \in {-1,1}$ : 1은 $\mathcal{C}_1$ , -1은 $\mathcal{C}_2$ 에 대응

$\mathcal{M}$ : 잘못 분류된 데이터들의 집합

$t_n=+1 \rarr \textbf{w}^T\phi_n > 0$
$t_n=-1 \rarr \textbf{w}^T\phi_n < 0$
$\textbf{w}^T\phi_nt_n > 0$

확률적 생성 모델 (Probabilistic Generative Models)

Logistic sigmoid의 성질 및 역함수

$\sigma(-a)=1-\sigma(a)$
$a=ln({\sigma \over {1-\sigma}})$

$K>2$ 인 경우

p(\mathcal{C}_k|\textbf{x})={p(\textbf{x}|\mathcal{C}_k)p(\mathcal{C}_k) \over \displaystyle\sum_j^{}p(\textbf{x}|\mathcal{C}_j)p(\mathcal{C}_j)}={exp(a_k) \over \displaystyle\sum_j^{}exp(a_j)}

a_k=ln\;p(\textbf{x}|\mathcal{C}_k)p(\mathcal{C}_k)

연속적 입력(continous inputs)

$p(\textbf{x}|\mathcal{C}_k)$ 가 가우시안 분포를 따르고 모든 클래스에 대해 공분산이 동일하다고 가정한다.

p(\textbf{x}|\mathcal{C}_k)={1 \over (2\pi)^{D/2}}{1 \over |\Sigma|^{1/2}}exp\lbrace {-{1 \over 2}(\textbf{x}-\bm{\mu}_k)^T\Sigma^{-1}(\textbf{x}-\bm{\mu}_k)} \rbrace

두 개의 클래스인 경우

p(\mathcal{C}_1|\textbf{x})=\sigma(a)

$a$ 를 전개하면

$a=ln{p(\textbf{x}|\mathcal{C}_1)p(\mathcal{C}_1) \over p(\textbf{x}|\mathcal{C}_2)p(\mathcal{C}_2)}\\{}\\ \; \; \;=\lbrace(\bm{\mu}_1^T-\bm{\mu}_2^T)\Sigma^{-1}\rbrace \textbf{x}-{1 \over 2}\bm{\mu}_1^T\Sigma^{-1}\bm{\mu}_1+{1 \over 2}\bm{\mu}_2^T\Sigma^{-1}\bm{\mu}_2+ln \; {p(\mathcal{C}_1) \over p(\mathcal{C}_2)}$

따라서 $a$ 를 $\textbf{x}$ 에 관한 선형식으로 다음과 같이 정리할 수 있다.

p(\mathcal{C}_1|\textbf{x})=\sigma(\textbf{w}^T\textbf{x}+w_0)

$\textbf{w}=\Sigma^{-1}(\bm{\mu}_1-\bm{\mu}_2)$
$w_0=-{1 \over 2}\bm{\mu}_1^T\Sigma^{-1}\bm{\mu}_1+{1 \over 2}\bm{\mu}_2^T\Sigma^{-1}\bm{\mu}_2+ln \; {p(\mathcal{C}_1) \over p(\mathcal{C}_2)}$

$K$ 개의 클래스인 경우
$a_k(\textbf{x})=\textbf{w}_k^T\textbf{x}+w_{k0}$
$\textbf{w}_k=\Sigma^{-1}\bm{\mu}_k$
$w_{k0}=-{1 \over 2}\bm{\mu}_k^T\Sigma^{-1}\bm{\mu}_k+ln \; p(\mathcal{C}_k)$

$a_k=ln \; Z-{1 \over 2}(\textbf{x}-\bm{\mu}_k)^T\Sigma^{-1}(\textbf{x}-\bm{\mu}_k)+ln \; p(\mathcal{C}_k)\\\quad\;=ln \; Z -{1 \over 2}\textbf{x}^T\Sigma^{-1}\textbf{x}+\bm{\mu}_k^T\Sigma^{-1}\textbf{x}-{1 \over 2}\bm{\mu}_k^T\Sigma^{-1}\bm{\mu}_k+ln \; p(\mathcal{C}_k)$

$p(\mathcal{C}_k|\textbf{x})={exp(a_k) \over \displaystyle\sum_j^{}exp(a_j)}\\{}\\={exp(ln \; Z -{1 \over 2}\textbf{x}^T\Sigma^{-1}\textbf{x}) exp(\bm{\mu}_k^T\Sigma^{-1}\textbf{x}-{1 \over 2}\bm{\mu}_k^T\Sigma^{-1}\bm{\mu}_k+ln \; p(\mathcal{C}_k)) \over \displaystyle\sum_j^{}exp(a_j)}$

모든 $j \neq k$ 에 대해 $p(\mathcal{C}_k|\textbf{x}) > p(\mathcal{C}_j|\textbf{x})$ 이면 $\mathcal{C}_k$ 로 분류한다고 할 때,
$p(\mathcal{C}_k|\textbf{x}) > p(\mathcal{C}_j|\textbf{x}) \Lrarr exp(a_k)>exp(a_j)\\\quad\quad\quad\quad\quad\quad\quad\;\;\,\,\Lrarr a_k>a_j\\\quad\quad\quad\quad\quad\quad\quad\;\;\,\,\Lrarr(\textbf{w}_k-\textbf{w}_j)^T\textbf{x}+(w_{k0}-w_{j0})>0$

따라서, 두 개의 클래스 사이의 결정 경계는 선형식으로 주어진다.

확률적 식별 모델 (Probabilistic Discriminative Models)

로지스틱 회귀 (Logistic Regression)

클래스 $\mathcal{C}_1$ 의 사후 확률은 특성 벡터 $\phi$ 의 선형함수가 $logistic\;sigmoid$ 를 통과하는 함수로 다음과 같이 표현된다.

p(\mathcal{C}_1|\phi)=y(\phi)=\sigma(\textbf{w}^T\phi)

\sigma(a)={1 \over 1+exp(a)}

p(\mathcal{C}_2|\phi)=1-p(\mathcal{C}_1|\phi)

주재민

이전 포스트

[프로그래머스] 데브코스 데이터엔지니어링 TIL Day 74

다음 포스트