[딥러닝] 퍼셉트론, 신경망

Chris Kim·2024년 11월 13일

딥러닝

목록 보기

2/5

1. 퍼셉트론

단순 퍼셉트론

퍼셉트론은 다수의 신호를 입력으로 받아 하나의 신호를 출력한다.

복층 퍼셉트론

퍼셉트론의 '층'을 쌓아 기존에는 표현하지 못하던 XOR 게이트 같은 것을 구현할 수 있음

2. 활성화 함수

활성화 함수(activation function) 이란 입력 신호의 총합을 출력 신호로 변환하는 함수를 일반적으로 부르는 말이다.
임계값을 경계로 출력이 바뀌는 활성화 함수는 계단 함수(step function) 이라고 한다.

2.1 시그모이드 함수

$h(x) = \frac{1}{1+\exp(-x)}$

시그모이드 함수(sigmoid function) 는 신경망에서 자주 이용하는 활성화 함수다.

2.2 시그모이드 함수와 계단 함수 구현 및 비교

비선형 함수를 쓰는 이유

2.3 ReLU 함수

ReLU(Rectified Linear Unit) 함수는 입력이 0을 넘으면 그 입력을 그대로 출력하고, 0 이하면 0을 출력하는 함수다.

h(x) = \begin{cases} x (x > 0)\\ 0(x \le 0)\\ \end{cases}

3. 다차원 배열의 계산

3.1 다차원 배열

shape : 배열의 형상
ndim : 배열의 차원

3.2 행렬의 곱: dot product

dot: dot product 계산

dot product 계산을 위한 조건에 유의하라. (if matrix A is m*n, then matrix B should be n*p)

4. 신경망 구현

5. 출력층 설계

5.1 항등함수와 소프트맥스 함수 구현

항등 함수(identity function) 은 입력을 그대로 출력한다.

분류에서 사용하는 소프트맥스 함수(softmax function) 의 식은 다음과 같다.

y_k = \frac{exp(a_k)}{\sum\limits_{i=1}^{n}exp(a_i)}

여기서 n은 출력층의 뉴런수, $y_k$ 는 그 중에서 k번째 출력임을 뜻한다. 소프트맥스의 출력은 모든 입력신호로부터 화살표를 받는다.

5.2 개선된 소프트맥스 함수

y_k = \frac{exp(a_k)}{\sum\limits_{i=1}^{n}exp(a_i)} = \frac{Cexp(a_k)}{C\sum\limits_{i=1}^{n}exp(a_i)} = \frac{exp(a_k+logC)}{\sum\limits_{i=1}^{n}exp(a_i+logC)} = \frac{exp(a_k+C')}{\sum\limits_{i=1}^{n}exp(a_i+C')}

이는 지수 함수의 큰 값으로 인한 오버플로를 방지하기 위해 식을 개선 한 것이다. $C$ 가 임의의 정수라 했을 때, 지수 함수를 계산할 때에는 어떤 정수를 더하거나 빼도 결과는 바뀌지 않는다는 것이다. 일반적으로 $C'$ 에 대입되는 값은 입력 신호 중 최댓값을 이용하는 것이 일반적이다.
소프트맥스 함수의 출력값을 전부 합하면 1이 되므로, 소프트맥스 함수의 출력을 '확률'로 해석할 수 있다.
$exp(x)$ 는 단조 증가 함수이므로, 소프트맥스 함수를 적용해도 각 원소의 대소 관계는 변하지 않는다. 신경망을 이용한 분류에서는 일반적으로 가장 큰 출력을 내는 뉴런에 해당하는 클래스로만 인식하므로, 소프트맥스 함수를 생략해도 된다.(자원 절약을 위해 현업에서도 생략된다.)

학습 단계에서는 소프트맥스 함수를 사용하지만, 학습한 모델을 통해 미지의 데이터에 대해 추론을 수행할 때에는 소프트맥스 함수를 생략한다.

5.3 출력층의 뉴런 수 정하기

'분류' 에서 출력층의 뉴런 수는 분류하고 싶은 클래스의 수로 정하는 것이 일반적이다.

6. 손글씨 숫자 인식

6.1 MINIST 데이터셋

MINIST 데이터셋은 손글씨 숫자 이미지 집합이다. 훈련 이미지는 60,000장, 시험 이미지가 10,000장 준비되어 있다.

6.2 신경망의 추론 처리

아래 깃허브 저장소에 교재 예제가 담겨있다.
링크

정규화: 데이터를 특정 범위로 변환하는 처리
전처리: 신경망의 입력 데이터에 특정 변환을 가하는 것.

6.3 배치 처리

추론 처리를 이미지 1개가 아닌 여러개를 묶음으로 처리할 수 있다. 이 경우, I/O를 통해 데이터를 읽는 횟수가 줄어들고, CPU, GPU로 순수 계산을 수행하는 비율이 높아지기 때문이다.

배치: 하나로 묶은 입력 데이터

7. 요약

신경망에서는 활성화 함수로 시그모이드 함수 혹은 ReLU 함수를 이용한다.
넘파이의 다차원 배열을 통해 신경망을 효율적으로 구현할 수 있다.
기계학습 문제는 회귀와 분류로 나눌 수 있다.
출력층 활성화 함수로 회귀에서는 항등함수, 분류에서는 소프트맥스 함수를 주로 사용한다.
분류에서는 출력층의 뉴런 수를 분류하려는 클래스의 수와 같게 설정한다.
입력 데이터를 묶은 것을 배치라 하며, 이 배치 단위로 진행하면 결과를 훨씬 빠르게 얻을 수 있다.

Chris Kim

회계+IT=???

이전 포스트

[딥러닝] Numpy 맛보기

다음 포스트