

ConVIRT에서는 pretrained weight로 image(언급 없음), text encoder(ClinicalBERT의 weight로 초기화) 둘 다 initializing함.

CLIP에서는 둘 다 scratch로 training함.





softmax에서 temperature 는 확률 분포의 sharpness 또는 smoothness를 조절하는 parameter.
contrastive learning에서 유사도 차이를 얼마나 강조할지 조절하는 역할을 함.
ConVIRT에서는 temperature parameter를 hyper-parameter로 tuning함.


CLIP에서는 temperature parameter를 learnable parameter로 training함.



ConVIRT

CLIP
