Seq2Seq 모델들은 Encoder의 정보들을 벡터화하여 손실되는 문제가 있어 Decoding 시 개별 토큰과의 관계 파악이 어려움또한, Sequence가 길어지는 경우 Gradient vanishing 문제 발생문제 해결을 위해 Attention value 도입인코