Lec-06 1, 2 Softmax Classification

박준영·2025년 11월 11일

딥러닝 공부

목록 보기

9/23

$H(X)=XW$
시작은 기본적인 Linear Regression이다.
그러나 Linear는 그 결과값이 어떤 특정한 실수값이 되기 때문에 Binary Classification에는 적합하지 않다.
$Z=H(X)$ , $g(Z)=\dfrac{1}{1+e^{-Z}}$
따라서 $H(X)$ 를 $Z$ 로 보고, $H(X)$ 의 결과값을 압축하여 $0\sim1$ 사이의 값을 가질 수 있도록 만든다.
이 $g(Z)$ 를 시그모이드 혹은 로지스틱이라고 부른다.
현재까지의 이미지는 다음과 같다
$X\rightarrow(\text{W를 가지고 계산})\rightarrow Z\rightarrow(\text{Sigmoid})\rightarrow \bar{Y}\in\{0,1\}$
- $Y$ : real data, $\bar{Y}$ : prediction $=H(X)$
이 로지스틱 회귀는 입력변수 $x_1,x_2$ 의 값을 가지고 있는데, 이를 통해 데이터를 2개의 분류로 나누는 것을 목적으로 한다.
즉, 로지스틱 회귀의 학습이란, 두 데이터를 나누는 선을 찾아내는 것이다.
그리고 이 아이디어를 그대로 Multinomial classification에 적용할 수 있다.

하나의 직선을 찾는다(가령 C).
이 직선은 C이거나 C가 아니거나 2개만 구분한다.
다른 A, B에 대해서도 직선을 찾는다((A/B)이거나 아니거나).
이 3개의 직선을 각각 로지스틱 회귀하여 독립된 classifier를 얻는다 $(=\text{가설 }H(X))$ .
이 classifier를 실제로 구현할 때에는 행렬로 구현한다. 즉, 3개의 행렬곱을 얻을 수 있다
$[\,w_1\ \ w_2\ \ w_3\,]\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=w_1x_1+w_2x_2+w_3x_3$ .
그러나 3개의 행렬은 너무 복잡하므로, 이 세 행렬을 하나로 합칠 수 있다
$\begin{bmatrix}w_{11}&w_{12}&w_{13}\\w_{21}&w_{22}&w_{23}\\w_{31}&w_{32}&w_{33}\end{bmatrix} \begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix} = \begin{bmatrix} w_{11}x_1+w_{12}x_2+w_{13}x_3\\ w_{21}x_1+w_{22}x_2+w_{23}x_3\\ w_{31}x_1+w_{32}x_2+w_{33}x_3 \end{bmatrix} = \begin{bmatrix} \bar{Y}_{A}\\ \bar{Y}_{B}\\ \bar{Y}_{C} \end{bmatrix}$

선형 점수 벡터 $z=(z_1,\dots,z_K)$ 를 확률로 변환한다.
정의: $S(z)_i=\dfrac{e^{z_i}}{\sum_{j=1}^{K}e^{z_j}}$ for $i=1,\dots,K$ .
성질: $0\le S(z)_i\le1$ 이고 $\sum_i S(z)_i=1$ .
예시 변환(개념):
- $\text{scores}\ [\,2.0,\ 1.0,\ 0.1\,]\ \Rightarrow\ \text{softmax}\ \Rightarrow\ \text{probabilities }[\,0.7,\ 0.2,\ 0.1\,]$ .
이후 예측 벡터를 원-핫으로 표현: 가장 큰 확률 위치만 $1$ , 나머지 $0$ .

$S(y)=\begin{bmatrix}0.7\\0.2\\0.1\end{bmatrix},\quad L=\begin{bmatrix}1.0\\0.0\\0.0\end{bmatrix},\quad D(S,L)=-\sum_i L_i\log S_i=-\log 0.7$

수식
- $D(S, L) = -\sum_i L_i \log(S_i) = -\sum_i L_i \log(\bar{y}_i) = \sum_i L_i \cdot \big(-\log(\bar{y}_i)\big)$
- 여기서 $-\log(\bar{y}_i)$ 는 로지스틱에서 쓰인 동일한 로그 항이다.
  $-\log(0^{+})=+\infty$ , $-\log(1)=0$ .

$L=\begin{bmatrix}0\\1\end{bmatrix}$ (즉, 정답이 B인 레이블)
$\,\bar{Y}_1=\begin{bmatrix}0\\1\end{bmatrix}\Rightarrow$ OK
$\begin{bmatrix}0\\1\end{bmatrix}\ \odot\ \big(-\log\begin{bmatrix}0\\1\end{bmatrix}\big) \ =\ \begin{bmatrix}0\\1\end{bmatrix}\ \odot\ \begin{bmatrix}+\infty\\0\end{bmatrix} \ =\ \begin{bmatrix}0\\0\end{bmatrix} \ \Rightarrow\ \text{최종 코스트 값}: 0$
$\,\bar{Y}_2=\begin{bmatrix}1\\0\end{bmatrix}\Rightarrow$ X
$\begin{bmatrix}0\\1\end{bmatrix}\ \odot\ \big(-\log\begin{bmatrix}1\\0\end{bmatrix}\big) \ =\ \begin{bmatrix}0\\1\end{bmatrix}\ \odot\ \begin{bmatrix}0\\+\infty\end{bmatrix} \ =\ \begin{bmatrix}0\\+\infty\end{bmatrix} \ \Rightarrow\ \text{최종 코스트 값}: +\infty$

출처: 모두를 위한 딥러닝 강좌 2
https://www.youtube.com/watch?v=7eldOrjQVi0&list=PLQ28Nx3M4Jrguyuwg4xe9d9t2XE639e5C