RNN의 변형 구조중 하나로 lstm이랑 유사라지만 게이트 수를 줄여 구조가 더 간단
rt = \sigma(W_r \cdot [h{t-1}, x_t] + b_r) (b는 편향 -> 으로 갈수록 리셋 안함(기억 유지))
\tilde{h}t = \tanh(W_h \cdot [r_t \cdot h{t-1}, x_t] + b_h)
zt = \sigma(W_z \cdot [h{t-1}, x_t] + b_z)
ht = (1 - z_t) \cdot h{t-1} + z_t \cdot \tilde{h}_t
(z는 0에 가까울수록 기존 기억 유지)
LSTM과 GRU 비교

양방향 변형 모델로, 데이터를 순방향(Forward)과 역방향(Backward)으로 동시에 처리하여 더 풍부한 정보를 학습
순방향 GRU: 문장을 왼쪽 → 오른쪽으로 읽음
- “앞에서 나온 내용(과거)”을 기억하면서 지금 단어를 해석
역방향 GRU: 문장을 오른쪽 → 왼쪽으로 읽음
- “뒤에서 나올 내용(미래)”을 미리 알고 지금 단어를 해석
양방향(BiGRU)는 “한 방향 GRU”보다 두 번 돌리므로 연산이 늘어남(순방향+역방향).
그럼에도 “양방향 LSTM”과 비교하면, GRU가 구조가 단순한 편이라 상대적으로 가볍다는 뜻
