인공신경망 기계번역
word translation
sequence to sequence + attention : 방대한 양의 정보를 함축적으로 표현하는 것에 대해 효율적
의문점 : Encoder, Decoder의 갯수가 각각 같을 필요는 없다... 그렇긴한데 그래도 일단은 같은게 좀 대략적으로 보면 맞지 않을까??
각 Encoder, Decoder 사이에 데이터가 움직일 때는 똑같은 shape임
3과 동일한 작업을 다음 단어에 대해서 진행(여러 단어의 경우 이러한 과정이 늘어나겠지?)
입력의 각 단어들의 value 벡터에 3,4에서 구한 점수를 곱함