GRU

안녕하세요·2023년 11월 24일

Pytorch_NLP_Cookbook

목록 보기

3/3

각 채널마다 gate를 따로 사용 → 모델이 너무 복잡해짐

더 컴팩트하게 정보를 처리 할 수 없을까? → GRU

중요 : Gate가 알아서 학습된다는 믿음!을 가지는 것

non-linear activation 가지가 따로 분리되어 있음 (flow 그림 참조)
→ vanishing gradient problem을 해결

( $Tanh$ : Vanilla RNN )

Most RNN varients are almost the same!
- GRU와 LSTM 사이에 엄청나게 유의미한 성능차이는 없다! (GRU 진땀승)
- Vanilla RNN과 RNN variants는 차이가 난다.

GRU 연산 속도가 더 빠른데 LSTM을 더 메이저하게 사용하는 이유

[강연자 추측]
당시 하드웨어 성능 이슈로 더 컴팩트한 알고리즘이 필요했다
→ 그루 개념 고안
→ 하드웨어 발전이 빨라서 그루 개발 시점엔 굳이 더 컴팩트한 알고리즘의 수요가 없어졌다

반갑습니다