\-beam search그리디가 아니다. beam width를 3 이상으로 설정함으로써 보다 나은 결과를 받는다.beam width 증가 = 더 좋은 결과, 더 느린 속도\-beam 최적화(length normalization)확률의 곱 -> 점점 작아짐 |- Ty의
Bleu : 좋은 번역이 여러 개 있을 경우 정확도 측정하는 방법안 좋은 평가 방법\-> MT 결과의 토큰들이 reference(정답)에 들어있는가\\개선\-> MT의 토큰들(중복 카운트 X)이 reference에 몇 번 등장하는가?\-개선된 방법을 n-gram에 적용
attention\-transformer 모델의 일부\-self attentionWq Wk Wv를 인풋 벡터 v에 곱해서 q,k,v를 얻어냄q1에 대해서 모든 단어들의 k벡터를 곱해서 질문에 대해 얼마나 적절한 답변 유형일지 계산함.이 때 k는 단어의 성질에 관한 벡터
번역할 때 transformer network의 작동encoder: 문장의 성질 파악decoder: 번역 결과의 다음 단어가 뭐가 되어야 하는지 알려줌encoder는 multi head attention이 1개, decoder는 2개가 연결되어 있는데 encoder의