[TIL Day42] 신경망의 기초 - 순환 신경망 I

이다혜·2021년 7월 2일

TIL

목록 보기

43/60

특징이 나타나는 순서가 중요
- 순서가 바뀌면 의미가 크게 훼손됨
샘플마다 길이가 다름
- 순환 신경망은 은닉층에 순환 연결을 부여하여 가변 길이 수용
문맥 의존성
- 비순차 데이터는 공분산이 특징 사이의 의존성을 나타냄
- 순차 데이터에서는 공분산은 의미가 없고, 대신 문맥 의존성이 중요
- 중요 문맥(특징) 간 간격이 클 경우 '장기 의존성'이라 부름(LSTM으로 처리)

순환 신경망이 갖추어야 할 세 가지 필수 기능!
- 시간성: 특징을 순서대로 한번에 하나씩 입력
- 가변 길이: 길이가 T인 샘플을 처리하려면 은닉층이 T번 나타나야 함(T는 가변적)
- 문맥 의존성: 이전 특징 내용을 기억하고 있다가 적절한 순간에 활용

기존의 깊은 신경망과 유사하게 입력층, 은닉층, 출력층이 있으나 다른 점은 은닉층이 순환 연결을 가진다는 점!

은닉층의 순환 연결
- 시간성, 가변 길이, 문맥 의존성을 모두 처리할 수 있음
- 순환 연결은 t-1 순간에 발생한 정보를 t 순간으로 전달하는 역할
수식적으로 살펴보자
$\bold{h}^{(t)}=f(\bold{h}^{(t-1)}, \bold{x}^{(t)};\theta)$
- $t=1$ 순간에 계산, 그 결과를 가지고 $t=2$ 순간에 계산, ... $T$ 순간까지 반복

- 일반적으로 $t$ 순간에는 $t-1$ 순간에 은닉층 값(상태) $\bold{h}^{(t-1)}$ 와 t순간의 입력 $\bold{x}^{(t)}$ 를 받아 $\bold{h}^{(t)}$ 로 전환
순환 신경망의 매개변수

- 가중치 집합 $\theta=\{\bold{U},\bold{W},\bold{V},\bold{b},\bold{c}\}$
- $\bold{U}$ 는 입력층과 은닉층을 연결하는 pxd행렬
- $\bold{W}$ 는 은닉층과 은닉층을 연결하는 pxp행렬
- $\bold{V}$ 는 은닉층과 출력층을 연결하는 qxp행렬
- $\bold{b}, \bold{c}$ 는 바이어스로서 각각 px1과 qx1행렬
매개변수 공유
- 매 순간 다른 값을 사용하지 않고 같은 값을 공유함
- 추정할 매개변수 수가 획기적으로 줄어듦
- 매개변수의 수가 특징 벡터의 길이 $T$ 에 무관
- 특징이 나타나는 순간이 뒤바뀌어도 같더나 유사한 출력을 만들 수 있음

은닉층의 계산
$h_j^{(t)}=\tau(a_j^{(t)})$ , $j=1, 2, ..., p$
이때, $a_j^{(t)}=\bold{w}_j\bold{h}^{(t-1)} + \bold{u}_j\bold{x}^{(t)}+b_j$
( $t$ 순간의 입력에서 $\bold{w}$ 를 곱하고, 이전 층에서 나온 $\bold{h}^{(t-1)}$ 에 $\bold{w}$ 를 곱함)
출력층의 계산
$\bold{o}^{(t)}=\bold{V}\bold{h}^{(t)}+\bold{c}$
$\bold{y}^{'(t)}=softmax(\bold{o}^{(t)})$

back propagation through "time"

RNN과 DMLP의 차별성
- RNN은 샘플마다 은닉층의 수가 다름(얼마나 전달될 수 있는지에 따라)
- DMLP는 왼쪽에 입력, 오른쪽에 출력이 있지만 RNN은 매 순간 입력과 출력이 있음
- RNN은 가중치를 공유
목적함수의 정의
- 출력값을 $\bold{y'}=(y'^{(1)}, y'^{(2)}, ..., y'^{(T)})^T$ , 목푯값을 $\bold{y}=(y^{(1)}, y^{(2)}, ..., y^{(T)})^T$ 으로 표기

- 학습이 할 일
경사도 계산( $\bold{V}$ )
BPTT 알고리즘