교사 학습
N개 클래스 정의
Network 구성
input 입력
계산
class 별 scoring
정답을 어떻게 표현할 수 있을까?
정답의 일관성이 유지되어야 함
예측과 정답을 서로 비교하기 위해 서로 같은 Scale 값이어야 함
Softmax Function
x값이 커질수록 함수 값도 더욱 커짐
항상 양수
같은 scale을 갖는 예측과 정답 두 값의 차이를 수치화
미분 가능해야 함
분류(classification) 문제에선 Cross Entropy 사용
Gradient Descent
N개의 input으로 1개의 output을 구하는 문제
Encoder + Fully connected layer 형태 모델 사용
Input은 tokenized된 token
[CLS], [SEP] token 추가
attention_mask : 0이면 masking되어 self-attention에 관여 X , 1이면 self-attention에 관여
token_type_ids : 소속 문장을 나타내는 ids
Output
Fully Connected Layer를 거쳐 output logit 값이 출력
MSE
MRC 문제의 정답 위치를 찾는 문제에서 사용
문장 유사도
Cross Entropy
※ 모든 이미지 및 코드 출처는 네이버 커넥트재단 부스트캠프 AI Tech 5기입니다. ※