Q: LSTM은 왜 유용한가요?
LSTM은 메모리를 분리하여 과거의 정보를 저장하고 불필요한 정보는 잊어버리며 필요할 때 필요한 만큼 저장해놓은 정보를 활용하여 RNN의 Long-Term Dependency 문제를 해결할 수 있다.
RNN에서는 t 시점에 대한 도함수를 구하기 위해 chain rule이 적용된다. 이로 인해 모든 time step에 같은 값으로 공유되는 Wh의 크기가 작으면 gradient가 몹시 작아지는 기울기 소실 즉 vanishing gradient 문제가 발생한다.
결국 가까이에 위치한 dependency에 대해서만 학습되고 멀리 위치한 dependency에 대해서는 정보가 소실되어 학습이 어려워진다.
즉 weight가 long-term effects보다 near affects에 대해 update된다.
참조
cs224n-2021 winter 강의
면접 질문 출처
https://github.com/zzsza/Datascience-Interview-Questions