*본 게시글은 유튜브 '김성범[ 교수 / 산업경영공학부 ]' [핵심 머신러닝 RNN, LSTM and GRU] 자료를 참고한 점임을 알립니다.
LSTM에 대해서
1. 기본 컨셉
- 장기 의존성 문제를 완화한 RNN 개선 모델
- 기존 RNN의 'Hidden State(ht)'와 더불어 'Cell State(ct)'를 제안
- Forget gate (ft), Input gate (it), Output gate (ot) 세가지 gate를 추가한 구조
data:image/s3,"s3://crabby-images/b017d/b017d157333ff0ce104a96aa25b37fe9c3de8252" alt=""
- ht를 다른 방식으로 계산하여 장기 의존성 문제 완화
- 핵심인 ht를 구하는 데 있어 ct를 활용
2. 전체 구조
data:image/s3,"s3://crabby-images/102bf/102bfb7fa8bdca9519cddb0428fca1975b457705" alt=""
- 최종 목표인 t시점의 yt를 구하기 위한 ht
3. 원리
-
첫번째 단계
c~t(임시 Cell State)를 구하기 위한 xt(현재 Input), ht−1(이전 Hidden State)
data:image/s3,"s3://crabby-images/904c9/904c9d7d2066d93b230f4469b2889521e801ae75" alt=""
-
두번째 단계
ct(현재 Cell State)를 구하기 위한 ft(Forget gate), ct−1(이전 Cell State), it(Input gate), c~t(임시 Cell State)
data:image/s3,"s3://crabby-images/dfbaa/dfbaa3fd129b19d7e780e56cccff6099f5a15eae" alt=""
-
세번째 단계
ht(Hidden State)를 구하기 위한 ot(Output gate), ct(현재 Cell State)
data:image/s3,"s3://crabby-images/a371e/a371e491fe82873648041fe1f9f9db5a9a009f9b" alt=""
-
종합
data:image/s3,"s3://crabby-images/2c4a7/2c4a7a17ddbc2c5a2f286d6cee1afcdca1dcab63" alt=""
-
과거 Cell State에서 사용하지 않을 데이터에 대한 가중치
ft=σ(Wxhfxt+Whhfht−1+bhf)
data:image/s3,"s3://crabby-images/aa1dc/aa1dc01ab02162cd7d74e5354945a75afe015eb8" alt=""
-
현재 Input에서 사용할 데이터를 저장하기 위한 가중치
it=σ(Wxhixt+Whhiht−1+bhi)
data:image/s3,"s3://crabby-images/c7571/c7571d7b7e8f5ba2617ffdb821a07453d37e87ff" alt=""
-
출력할 Hidden State에 Cell State를 얼마나 반영할 것인지에 대한 가중치
ot=σ(Wxhoxt+Whhoht−1+bho)
data:image/s3,"s3://crabby-images/d98d7/d98d752a23c2a8c5bcee87fd06ded896ce0467f4" alt=""
-
Gate는 0~1 사이의 값을 가지는 벡터
5. Cell State
-
c~t (임시 Cell State)
c~t=tanh(Wxhgxt+Whhght−1+bhg)
data:image/s3,"s3://crabby-images/3c732/3c73237b7c45382c50ea9d76802a5c3139c1ba0d" alt=""
-
ct (현재 Cell State)
ct=ft⊗ct−1⊕it⊗c~t(⊗=elementwise−product)
data:image/s3,"s3://crabby-images/affe9/affe9cc35b958ff087c1fb295e46fe8cb6cd2a1f" alt=""
-
[1] Forget Gate의 역할 (ct−1의 정보를 조절)
data:image/s3,"s3://crabby-images/f6aab/f6aabe5dc34a409d7eff09a5849aade0680ce464" alt=""
-
[2] Input Gate의 역할 (c~t의 정보를 조절)
data:image/s3,"s3://crabby-images/b41f7/b41f70a4785c4635e6960d97408a8a6cb493c5bb" alt=""
-
[1] + [2] 를 합하여 ct (현재 Cell State)
data:image/s3,"s3://crabby-images/c924e/c924e1e1af411cf94c0a1e2748e4c082525cb6fd" alt=""
6. Hidden State
-
Output Gate
ot=σ(Wxhoxt+Whhoht−1+bho)
-
Hidden State
ht=ot⊙tanh(ct)
data:image/s3,"s3://crabby-images/e5725/e5725203f991909b4898953f39d14dba0d499447" alt=""
7. ETC
- LSTM with peephole connections
- Gate에 ct or ct−1 정보를 활용
ft=σ(Wxhfxt+Whhfht−1+Wchfct−1+bhf) it=σ(Wxhixt+Whhiht−1+Wchict−1+bhi) ot=σ(Wxhoxt+Whhoht−1+Wchoct+bho)
data:image/s3,"s3://crabby-images/88c8e/88c8ed5260f6c9a66bf822f4f4511686621a1cf6" alt=""
- GRU
- LSTM의 구조를 개선하여 파라미터 개수를 줄임
- Forget Gate, Input Gate를 'Update Gate(zt)'로 통합
- Output Gate를 대체할 'Reset Gate(rt)' 정의
- Cell State, Hidden State를 'Hidden State'로 통합
data:image/s3,"s3://crabby-images/e10fb/e10fb504093aab5302b18aaa3a37374b1679541a" alt=""
참고 자료