Single-layer perceptron
Perceptron의 구조
Perceptron의 동작 메커니즘
- 선형 연산: 입력값과 가중치를 각각 곱하고 더하여 s를 구한다.
S=w0+∑i=1dwixi=wx
- 비선형 연산: s에 활성함수를 적용하여 최종 출력값 y를 구한다.
r(s)={1,−1,if x≥0if x<0
- 기하학적인 해석: 특징 공간을 두 영역으로 나누는 역할을 한다.
- d(x)=w1x1+w2x2+⋯+wdxd+w0=0
- 2차원: Decision Line
- 3차원: Decision Plane
- 4차원 이상: Decision Hyperplane(초평면)
Perceptron의 학습
- 학습이란 가중치를 알아내는 것을 의미한다.
- 이때 목적함수 J가 만족해야 할 조건
J(w)=xk∈Y∑−yk(wTxk),Y:wrong cases
- J(w)≥0
- w가 최적이면 J(w)=0
- 틀리는 샘플이 많은 w일수록 J(w)는 큰 값을 가진다.
- Gradient 계산
- ∂w0∂J(w)=∑(−ykxk0)
- ΔJ(w)=⎣⎢⎢⎢⎢⎡∑(−ykxk0)∑(−ykxk1)⋮∑(−ykxkd)⎦⎥⎥⎥⎥⎤=∑(−ykxk)
- 학습 규칙
- w=w+ρ∑xk∈Yykxkw=w−ρΔJ(w)
Multi-layer perceptron
Single-layer perceptron의 한계
- 퍼셉트론은 선형 분류기로, 선형분리가 불가능한 경우도 존재한다.
- 이 문제를 해결하게 위해 다층 퍼셉트론이 등장하였다.
- XOR Problem 해결
Hidden layer
- 두 퍼셉트론을 병렬 결합하여 새로운 특징 공간으로 확장된다.
- 새로운 좌표 공간에서는 +1,−1 값만 가질 수 있다.
- 계단형 활성함수(Hard Activation Function)을 사용하기 때문이다.
- 단일 퍼셉트론에서는 계단 활성화 함수를 사용한다.
Activation Function
- 로지스틱 시그모이드
- 하이퍼볼릭 탄젠트 시그모이드
- 소프트플러스
- 소프트 활성 함수는 (-1, 1) 사이의 실수 출력값을 확률 또는 신뢰도로 해석하여 더 정확한 의사결정, 추가적 추론에 활용할 수 있다.
- Multi-layer Perceptron에서는 주로 Sigmoid, Tanh 활성화 함수를 사용한다.
- Gradient Vanishing 문제를 해결하게 위해 ReLU를 사용한다.
다중 퍼셉트론 구조
- Layer
- Node
- Weight
- ujil: l−1번째 은닉층의 i번째 노드와 l번째 은닉층의 j번째 노드를 연결하는 가중치
- Hidden Layer
- 특징 벡터를 분류에 더 유리한 새로운 특징 공간으로 변환할 수 있다.
- 신경망에서 표현 학습(Representation learning)의 핵심이 된다.
- Universal approximation theorem: 은닉층 하나만 있어도 표현력이 향상된다.
다중 퍼셉트론의 동작 메커니즘
- 벡터 A를 벡터 B로 매핑하는 하수로 이해할 수 있다.