seq2seq with Attention 논문구현

하영영·2024년 3월 11일

[NLP논문읽기] 자 뿌 !

목록 보기

4/4

◆ 손실함수

seq2seq 모델은 기본적으로 각 time step마다 손실을 계산하고,
전체 시퀀스에 대한 손실의 합을 최소화하는 방향으로 모델을 학습시키는 것의 학습의 목표이다.
손실을 최소화하는 과정에서 모델은 정답 단어에 대해 더 높은 확률을 할당하고, 잘못된 단어에 대해서는 낮은 확률을 할당하게 됨.
이에 교차 엔트로피를 손실 함수로 사용하여 단어의 확률 분포를 기반으로 하여 가장 확률이 높은 단어를 선택한다.

교차 엔트로피
실제 분포(정답 단어)와 예측 분호(모델이 예측한 단어의 확률 분포) 사이의 차이를 측정
즉, 모델의 예측이 정답과 얼마나 잘 일치하는지를 나타내는 것.

하영영

NLP 공부중

이전 포스트

seq2seq with Attention 논문구현

[NLP논문읽기] 자 뿌 !

◆ 손실함수

Sequence to Sequence Learning with Neural Networks

0개의 댓글