MetaCode(Deep Learning) - NLP (RNN)

cjun·2023년 1월 3일

MetaCode - Deep Learning(NLP)

목록 보기

3/4

현재 시간의 상태가 이전 시간의 상태와 관련이 있다고 가정:
- First-order system
  $x_t = f(x_{t-1})$
  $x_0 \rightarrow$ $x_1 \rightarrow$ $x_2 \rightarrow$ $x_3 \rightarrow x_4$
- 이 시스템은 외부 입력 없이 자기 혼자서 돌아간다.
  - autonomous system
현재 시간의 상태가 이전 시간의 상태와, 현재의 입력에 관계가 있는 경우
- 상태:x, 입력:u
- 식으로 표현하면:
  $x_t = f(x_{t-1},u_t)$

어떤 시스템을 해석하기 위한 3요소 : 입력(u), 상태(x), 출력(y)
1차원 시스템의 모형:
$x_t = f(x_{t-1},u_t)$
각 시간에서 관측 가능한 상태의 모음: 출력 $y_t$
$y_t = h(x_t)$
상태 $x_t$ 가 의미하는 것은? hidden layer의 state
앞의 그림에서 상태 $x_t$ 는 이전까지의 상태와, 이전까지의 입력을 대표할 수 있는 압축본
상태 $x_t$ 는 시계열로 들어오는 입력들을 최대한 상세히 표현
원래 풀고 싶었던 문제:
- $x_t = f(u_t,u_{t-1}, u_{t-2},...,u_0)$
대신해서 풀 문제:
- $x_t = f(x_{t-1},u_t)$
First-order Markov Model
State-Space Model에서 근사하는 함수는 2개:
- $x_t = f(x_{t-1},u_t)$
- $y_t=h(x_t)$
우리는 함수 f와 h를 근사하기 위해서 뉴럴 네트워크를 사용
- $x_t = \sigma(W_{xx}x_{t-1}+W_{xu}u_t+b_x)$
- $y_t = \sigma(W_{yyx}x_t+b_y)$
사용하는 parameter matrix는 총 5개

RNN이 갖고 있는 한계점:
- exploding gradient
- vanishing gradient
RNN 구조에서 state $x_t$ 에는 $W_{xx}$ 가 계속 곱해지게 된다.
- 곱해지는 값이 1보다 크다면? --> $\infin$
- 곱해지는 값이 1보다 작다면? --> 0

Step 1: 새로운 입력과 이전 상태를 참조해서
- 이 정보를 얼마의 비율로 사용할 것인지를 결정
- (또는) 얼마나 잊어버릴 것인가?
Step 2: 새로운 입려고가 이전 상태를 참조해서
- 이 정보를 얼마나 활용할 것인가?
- (+) 어떤 정보를 활용할 것인가도 결정
Step 3:
- Step 1에서는 얼마나 잊어버릴까? Forget Gate
- Step 2에서는 얼마나 이용할까? Input Gate
- 이 둘을 적절히 섞기 --> Cell State
Step4: 일련의 정보들을 모두 종합해서 다음 상태를 결정

방금까지 본 LSTM 모델: 너무 복잡함. Input, Forget, cell, Output
- GRU는 LSTM의 간소화 버전
- Cell State가 없음

Machine Translation
문장 전체를 Feature로 해석하고 문장 전체를 생성
Decoder과정에서 학습시 초기 값이 이상하므로 연쇄적으로 이상한 값 도출
이러한 문제점을 해결하기 위해 Attention 도입
그럼에도 불구하고 rnn이나 lstm에 비하여 좋은 성능
Full Process
(1) Word Tokenization & Encoding : word --> [ 1 0 0 0 ].
(2) Training [ ] --> [ ] teacher-force
(3) Validation & Testing