Perceptron

‍이세현·2024년 10월 17일
0

Single-layer perceptron

Perceptron의 구조

  • Layer
  • Node
  • Weight
  • Bias

Perceptron의 동작 메커니즘

  • 선형 연산: 입력값과 가중치를 각각 곱하고 더하여 ss를 구한다.
    S=w0+i=1dwixi=wxS=w_0+\sum_{i=1}^{d}w_ix_i=\mathbf{wx}
  • 비선형 연산: ss에 활성함수를 적용하여 최종 출력값 yy를 구한다.
    r(s)={1,if x01,if x<0r(s)=\begin{cases} 1, & \text{if } x \geq 0 \\ -1, & \text{if } x < 0 \end{cases}
  • 기하학적인 해석: 특징 공간을 두 영역으로 나누는 역할을 한다.
    • d(x)=w1x1+w2x2++wdxd+w0=0d(\mathbf{x})=w_1x_1+w_2x_2+\cdots+w_dx_d+w_0=0
    • 2차원: Decision Line
    • 3차원: Decision Plane
    • 4차원 이상: Decision Hyperplane(초평면)

Perceptron의 학습

  • 학습이란 가중치를 알아내는 것을 의미한다.
  • 이때 목적함수 JJ가 만족해야 할 조건
    J(w)=xkYyk(wTxk),Y:wrong casesJ(\mathbf{w})=\sum_{\mathbf{x}_k\in Y}-y_k(\mathbf{w}^T\mathbf{x}_k), Y:\text{wrong cases}
    • J(w)0J(\mathbf{w})\geq0
    • w\mathbf{w}가 최적이면 J(w)=0J(\mathbf{w})=0
    • 틀리는 샘플이 많은 w\mathbf{w}일수록 J(w)J(\mathbf{w})는 큰 값을 가진다.
  • Gradient 계산
    • J(w)w0=(ykxk0)\frac{\partial J(\mathbf{w})}{\partial\mathbf{w}_0}=\sum(-\mathbf{y}_kx_k0)
    • ΔJ(w)=[(ykxk0)(ykxk1)(ykxkd)]=(ykxk)\Delta J(\mathbf{w})= \begin{bmatrix} \sum(-\mathbf{y}_kx_{k0}) \\ \sum(-\mathbf{y}_kx_{k1}) \\ \vdots \\ \sum(-\mathbf{y}_kx_{kd}) \end{bmatrix} =\sum(-\mathbf{y}_k\mathbf{x}_k)
  • 학습 규칙
    • w=w+ρxkYykxkw=wρΔJ(w)\mathbf{w}=\mathbf{w}+\rho\sum_{\mathbf{x}_k\in Y}\mathbf{y}_k\mathbf{x}_k \\ \mathbf{w}=\mathbf{w}-\rho\Delta J(\mathbf{w})

Multi-layer perceptron

Single-layer perceptron의 한계

  • 퍼셉트론은 선형 분류기로, 선형분리가 불가능한 경우도 존재한다.
    • 이 문제를 해결하게 위해 다층 퍼셉트론이 등장하였다.
  • XOR Problem 해결

Hidden layer

  • 두 퍼셉트론을 병렬 결합하여 새로운 특징 공간으로 확장된다.
    • 새로운 좌표 공간에서는 +1,1+1, -1 값만 가질 수 있다.
    • 계단형 활성함수(Hard Activation Function)을 사용하기 때문이다.
      • 단일 퍼셉트론에서는 계단 활성화 함수를 사용한다.

Activation Function

  1. 로지스틱 시그모이드
  2. 하이퍼볼릭 탄젠트 시그모이드
  3. 소프트플러스
  • 소프트 활성 함수는 (-1, 1) 사이의 실수 출력값을 확률 또는 신뢰도로 해석하여 더 정확한 의사결정, 추가적 추론에 활용할 수 있다.
    • Multi-layer Perceptron에서는 주로 Sigmoid, Tanh 활성화 함수를 사용한다.
      • Gradient Vanishing 문제를 해결하게 위해 ReLU를 사용한다.

다중 퍼셉트론 구조

  • Layer
  • Node
  • Weight
    • ujilu_{ji}^{l}: l1l-1번째 은닉층의 ii번째 노드와 ll번째 은닉층의 jj번째 노드를 연결하는 가중치
  • Hidden Layer
    • 특징 벡터를 분류에 더 유리한 새로운 특징 공간으로 변환할 수 있다.
    • 신경망에서 표현 학습(Representation learning)의 핵심이 된다.
    • Universal approximation theorem: 은닉층 하나만 있어도 표현력이 향상된다.

다중 퍼셉트론의 동작 메커니즘

  • 벡터 AA를 벡터 BB로 매핑하는 하수로 이해할 수 있다.
profile
Hi, there 👋

0개의 댓글

관련 채용 정보