CH14 - RNNs

IkSun·2023년 5월 25일

딥러닝

목록 보기

8/8

RNNs 은 순환 신경망(Recurrent Nerual Network)이다.
RNN 은 시퀀스 데이터(Sequence data) 를 모델링하는 데 사용되는 인공 신경망의 한 종류이다.
시퀀스 데이터는 순서에 따라 나열된 데이터로 예를 들어 문장, 음성, 시계열 데이터 등이 있다.
RNN은 다른 유형의 신경망과 달리 이전 단계의 출력을 현재 단계의 입력으로 사용하여 내부 상태를 유지한다. 이는 RNN이 이전 단계에서의 정보를 현재 단계에서 활용할 수 있게 해주는 장점을 제공한다. 이를 통해 RNN은 시퀀스 데이터의 의미와 구조를 파악하고, 문맥을 이해하는데 도움이 된다.
RNN은 시간에 따라 연속적으로 펼쳐진 구조를 가지고 있다. 각 시간 단계(time step)마다 입력을 받고 출력을 생성한다. 이때 입력과 출력은 벡터 또는 행렬로 표현된다. 또한 RNN 은 가중치를 공유하여 시간 단계마다 동일한 모델 파라미터를 사용한다.
RNN은 다양한 응용 분야에서 사용된다. 주요 예시로는 기계 번역, 자연서 처리, 음성 인식, 시계열 예측 등. RNN 의 기본형태인 단순한 순환 신경망 외에도, LSTM(Long Shor-Term Memory) 과 GRU(Gated Recurrent Unit) 과 같은 변종이 개발되었다. 이러한 변종들은 RNN 이 가지고 있는 장기 의존성문제(Long-term dependency problem) 를 해결하기 위해 고안되었다.

입력 $x^{<2>}$ 을 넣으면 $a^{<1>}$ 이라는 상태가 나온다.
이후 다음스텝에서는 $x^{<2>}$ 와 $a^{<1>}$ 를 이용해서 $y^{<2>}$ 만듦
중간에 loop : 상태를 표시
leng term dependency 를 다룰 수 있다고 말하는 이유는 $a^{<0 1 2 >}$ 라고 해서 과거의 정보를 포함하고 있을 것이라는 생각에서 나온다.

실질적으로 one hot 코드를 사용하진 않는다
고차원 공간에 하나의 벡터로 단어를 다 매핑시킨 방법 사용 -> 단어 벡터의 장점 :
- king - man + woman = queen 이 가능함
- sementic 한 의미를 담고 있기 떄문에 이를 사용하여 자연어 처리의 성능을 높혔음

GRU 가 LSTM 의 간략화 버전이라고 할 수 있다.
구조 : LSTM 은 넘기는 state 는 2개이다 (이유는 잚 모르신다함)
- 후보를 만들고, 노브 3개만들기(감마u, 감마f, 감마o - update, forgiven, output 이라는 의미)
- c<t> 를 결정할 때 내가 후보를 써서 업데이트를 할지 그전에서 올라온 셀을 쓰고 잊어버릴지를 결정
- 그다음 a 를 만든다?
다음 강의자료는 그림 -> 복잡해서 pass

GRU 권장
GPU 를 사용하더라도 training 이 되게 오래걸림
이유
- 역전파를 통해서 업데이트를 하는데
- 아무리 GPU 를 사용하더라도 각 $x^{<T_x>}$ .. $x^{1}$ 를 기반으로 각각 조금 업데이트 하고 이런식이므로 되기 떄문에 느림
- 우리 수업시간에 다루지 않은것 : 이것을 해결하기 위한것이 attention 테크닉에서 유래된 transformer -> 2학기
- 즉 병렬화된 버전은 transformer

결론 : RNN 도 좋은 테크닉

사용될때 주의 점
- 입력을 차례대로 for 문을 통해서 넣는게 아닌, 입력을 시간축으로 쭉 펼쳐서 입력으로 넣는다.
- 실제로는 차례대로 들어가는 것 처럼 보인다.
- LSTM 같은 경우는 2가지의 state 가 필요(왼쪽 : $h_0, c_0$ ) -> 마지막 결과값이 $h_n. c_n$