-beam search
그리디가 아니다. beam width를 3 이상으로 설정함으로써 보다 나은 결과를 받는다.
beam width 증가 = 더 좋은 결과, 더 느린 속도
-beam 최적화(length normalization)
확률의 곱 -> 점점 작아짐 |- Ty의 알파 제곱으로 나눔
로그 표현 -> 언더플로우 방지(곱으로 표현할 경우 점점 작아지므로 언더플로우 발생 가능)
-beam 에러 분석
beam은 휴리스틱 검색 방법 -> 최적 아님
beam search 결과가 이상할 경우 고쳐야 할 대상의 후보
1. RNN: P(y|x) 계산
2. beam-Search:
사람이 번역한 문장을 y*라고 할 때 P(y*|x)>P(y^|x)인 경우 beam search가 문제
반대의 경우 RNN이 문제