비교적 짧은 시퀀스에 대해서만 효과를 보임
장기 의존성 문제 : 바닐라 RNN의 시점이 길어질수록 앞의 정보가 뒤로 충분히 전달되지 못함(과거의 값들이 희석되는 문제)
ex) 나는 오늘 기분이 무척이나 나빴지만 밥이 맛있어서 기분이 다시 좋아졌다.
'기분이 좋아졌다'가 핵심 포인트지만 '나빴다'라는 단어가 너무 초반에 등장해 뒷단까지 충분히 전달되기 어려울 수 있다. -> 장기 의존성 문제
: 현재 정보를 기억하기 위한 게이트
f_t는 삭제 게이트에서 일부 기억을 잃은 상태이다.
입력게이트의 i_t와 g_t의 원소별 곱(o)(: 같은 크기의 두 행렬을 같은 위치의 성분끼리 곱하는 것) -> 선택된 기억할 값
i_t o g_t(입력 게이트에서 선택된 기억) + f_t o C_t-1(삭제 게이트의 결과값) = C_t
= 다음 t+1시점의 LSTM 셀로 넘겨짐
즉, 각 게이트의 영향력은
삭제 게이트 - 이전 시점의 입력을 얼마나 반영할지
입력 게이트 - 현재 시점의 입력을 얼마나 반영할지
(한쪽 게이트가 0이 될 경우를 가정해보라)