Seq2Seq Model
many-to-many에 해당
기본 구조 (encoder + decoder)
Attention
Seq2Seq Model with Attention
Teacher forcing
Backpropagation
다양한 attention 방법
attention 장점
Beam Search
Greedy decoding
Exhaustive search
Beam search
각 time step마다 k개의 최적해를 선택
global optimal solution을 제공하지는 않지만, 앞의 두가지 방법보다 효율적이다.
예시 (k=2)
종료 조건: 최대 time step T까지, 완료된 hypothesis의 최소 개수 n 이상일 경우
평가
길이 Normalize
BLEU score
위치와 상관없이 gt와 겹치는 단어 개수 (확률), 분모가 예측 문장
검색 결과 예측 (예측한 결과가 올바르게 나왔나?)
분모가 gt 문장
실제로 검색했을 때 결과로 나온 문서들이 예측한 문서에 나왔는가?
N-gram 사용
n-gram으로 precision만 계산 (번역시 gt와 완전히 동일하지 않아도 좋은 번역일 수 있어서 recall 고려 X)
brevity penalty: 길이가 너무 짧은 번역들에 대한 penalty
Truncated BPTT
Gradient Clipping
활성화 함수로 ReLU를 사용
가중치 초기화
Layer Normalization
좌표평면 예시
ref. https://towardsdatascience.com/why-we-need-bias-in-neural-networks-db8f7e07cb98