그냥 아카이브 논문이긴 한데.. Text to image model 중 하나니 요약만 하려고 한다...
CT-RATE + RadChestCT (out-of-distribution evaluation, data-augmentation experiments)
FID for image quality, CLIP score for text-image alignment
전처리

Text Encoder: Biomed-CLIP, T5
Image encoder: MAISI 4x downsampling. Tensor splitting parallelism for distributed GPU usage.
Training scheme:
뻔한 레파토리인 quantitative metrics (FID, CLIP Score) 은 생략
Data augmentation 성적도 딱히 감흥없어서 생략

Human expert assessment 를 포함했는데 (2 radiologists), text-image alignment 가 real data 보다 점수가 높았음 (3.5 vs 3.9). 이거보고 스캠논문아닌가? 라는 생각이 들었음.

Input text prompt types ablation study 에서는 impression + demographics 조합의 FID 가 가장 유효하게 나왔음. 하지만, findings 에서 제공하는 정보가 제일 많은데, axial FID 가 0.03밖에 올라가지 않았다는 것은 아직 해당 테크닉이 findings section 의 정보를 다 반영하지 못한다는 것을 의미한다.