GRU

임광영·2022년 8월 13일
0

DeepLearning

목록 보기
10/18

LSTM의 장기 의존성 문제의 해결을 유지하면서 은닉 상태의 업데이트에 대한 계산을 줄임.

GRU는 LSTM과 유사하지만 구조를 단순화.


Architecture

LSTM은 Input, Output, Forget Gate로 구성.
GRU는 Update, Reset Gate로 구성.
LSTM보다 학습 속도는 빠르고 성능은 비슷.

rt=σ(wxrxt+whrht1+br)r_t=\sigma(w_{xr}x_t+w_{hr}h_{t-1}+b_r)
zt=σ(wxzxt+whzht1+bz)z_t=\sigma(w_{xz}x_t+w_{hz}h_{t-1}+b_z)
gt=tanh(whg(rtht1)+wxgxt+bg)g_t=tanh(w_{hg}(r_t\circ h_{t-1})+w_{xg}x_t+b_g)
ht=(1zt)gt+ztht1h_t=(1-z_t)\circ g_t+z_t\circ h_{t-1}

LSTM과 GRU의 절대적 비교는 불가능.
데이터 양이 많다면 LSTM의 성능이 더 우수.

0개의 댓글