자연어 처리(GRU)

모와이·2026년 1월 23일

llm

목록 보기

7/20

RNN의 변형 구조중 하나로 lstm이랑 유사라지만 게이트 수를 줄여 구조가 더 간단

과거 정보를 얼마나 잊을지 결정
이전 은닉 상태가 현재 입력에 얼마나 반영될지 제아

rt = \sigma(W_r \cdot [h{t-1}, x_t] + b_r) (b는 편향 -> 으로 갈수록 리셋 안함(기억 유지))

새로운 은닉 상태는 리셋게이트를 적용한 이전 은닉 상태와 현재 입력 정보를 결합하여 제어

\tilde{h}t = \tanh(W_h \cdot [r_t \cdot h{t-1}, x_t] + b_h)

이전 은닉 상태와 새로운 은늑 상태를 조합하여 최종 은닉 상태 계산

ht = (1 - z_t) \cdot h{t-1} + z_t \cdot \tilde{h}_t
(z는 0에 가까울수록 기존 기억 유지)

LSTM과 GRU 비교

양방향 변형 모델로, 데이터를 순방향(Forward)과 역방향(Backward)으로 동시에 처리하여 더 풍부한 정보를 학습

순방향 GRU: 문장을 왼쪽 → 오른쪽으로 읽음
- “앞에서 나온 내용(과거)”을 기억하면서 지금 단어를 해석

역방향 GRU: 문장을 오른쪽 → 왼쪽으로 읽음
- “뒤에서 나올 내용(미래)”을 미리 알고 지금 단어를 해석

양방향(BiGRU)는 “한 방향 GRU”보다 두 번 돌리므로 연산이 늘어남(순방향+역방향).
그럼에도 “양방향 LSTM”과 비교하면, GRU가 구조가 단순한 편이라 상대적으로 가볍다는 뜻

공부하는거 정리하는 블로그