Perceptron

‍이세현·2024년 10월 17일

Single-layer perceptron

선형 연산: 입력값과 가중치를 각각 곱하고 더하여 $s$ 를 구한다.
$S=w_0+\sum_{i=1}^{d}w_ix_i=\mathbf{wx}$
비선형 연산: $s$ 에 활성함수를 적용하여 최종 출력값 $y$ 를 구한다.
$r(s)=\begin{cases} 1, & \text{if } x \geq 0 \\ -1, & \text{if } x < 0 \end{cases}$
기하학적인 해석: 특징 공간을 두 영역으로 나누는 역할을 한다.
- $d(\mathbf{x})=w_1x_1+w_2x_2+\cdots+w_dx_d+w_0=0$
- 2차원: Decision Line
- 3차원: Decision Plane
- 4차원 이상: Decision Hyperplane(초평면)

학습이란 가중치를 알아내는 것을 의미한다.
이때 목적함수 $J$ 가 만족해야 할 조건
$J(\mathbf{w})=\sum_{\mathbf{x}_k\in Y}-y_k(\mathbf{w}^T\mathbf{x}_k), Y:\text{wrong cases}$
- $J(\mathbf{w})\geq0$
- $\mathbf{w}$ 가 최적이면 $J(\mathbf{w})=0$
- 틀리는 샘플이 많은 $\mathbf{w}$ 일수록 $J(\mathbf{w})$ 는 큰 값을 가진다.
Gradient 계산
- $\frac{\partial J(\mathbf{w})}{\partial\mathbf{w}_0}=\sum(-\mathbf{y}_kx_k0)$
- $\Delta J(\mathbf{w})= \begin{bmatrix} \sum(-\mathbf{y}_kx_{k0}) \\ \sum(-\mathbf{y}_kx_{k1}) \\ \vdots \\ \sum(-\mathbf{y}_kx_{kd}) \end{bmatrix} =\sum(-\mathbf{y}_k\mathbf{x}_k)$
학습 규칙
- $\mathbf{w}=\mathbf{w}+\rho\sum_{\mathbf{x}_k\in Y}\mathbf{y}_k\mathbf{x}_k \\ \mathbf{w}=\mathbf{w}-\rho\Delta J(\mathbf{w})$

두 퍼셉트론을 병렬 결합하여 새로운 특징 공간으로 확장된다.
- 새로운 좌표 공간에서는 $+1, -1$ 값만 가질 수 있다.
- 계단형 활성함수(Hard Activation Function)을 사용하기 때문이다.
  - 단일 퍼셉트론에서는 계단 활성화 함수를 사용한다.

소프트 활성 함수는 (-1, 1) 사이의 실수 출력값을 확률 또는 신뢰도로 해석하여 더 정확한 의사결정, 추가적 추론에 활용할 수 있다.
- Multi-layer Perceptron에서는 주로 Sigmoid, Tanh 활성화 함수를 사용한다.
  - Gradient Vanishing 문제를 해결하게 위해 ReLU를 사용한다.

Layer
Node
Weight
- $u_{ji}^{l}$ : $l-1$ 번째 은닉층의 $i$ 번째 노드와 $l$ 번째 은닉층의 $j$ 번째 노드를 연결하는 가중치
Hidden Layer
- 특징 벡터를 분류에 더 유리한 새로운 특징 공간으로 변환할 수 있다.
- 신경망에서 표현 학습(Representation learning)의 핵심이 된다.
- Universal approximation theorem: 은닉층 하나만 있어도 표현력이 향상된다.