Softmax와 연계하여 생각해보자
어떤 점수 집합이든, temperature τ가 크든 작든 → 항상 합은 1
softmax는 단순히 “점수 리스트”를 “확률 분포(합=1)”로 바꿔주는 함수
temperature는 그 분포의 뾰족함 정도만 바꾸는 역할
: 점수 (logit)
: temperature
작은 → 분포가 뾰족
큰 → 분포가 평평
$\tau$는 온도와 비례
아이스크림 맛의 점수
softmax = 어떤 아이스크림 맛을 고를지에 대한 확률 분포로 변환
점수를 확률로 바꿔서 “어떤 맛을 고를지” 결정temperature τ가 개입대략 계산하면:
→ 점수 차이를 그대로 반영.
→ 거의 무조건 딸기만 고름.
→ 결과가 거의 비슷하게 섞여서 나옴.
