Batch Normalization, Layer Normalization 을 비교하며 알아보기
트랜스포머의 기본 어텐션의 QKV( Query, Key, Value ) 에 대해 알아보자
Multi-Head Self-Attention 에 대해 자세히 알아보자
INDUCTIVE BIAS(also known as learning bias:학습 편향) 이란, "학습자가 경험하지 않은 주어진 입력의 출력" 을 예측하기 위해 사용하는 일련의 가정이다.
영화 테넷에 Diffusion 모델의 핵심이 들어있다고???
Entropy, Cross-Entropy 그리고 K-L Divergence 의 수식과 계산 방법