이 논문의 핵심 contribution 은 CLIP을 이용해 text-driven latent vector 를 구하여 GAN 의 steerable style 로 활용하는 것이다. CLIP 이란 Contrastive Language-Image Pretraining mod
https://papers.nips.cc/paper/2020/file/9b8619251a19057cff70779273e95aa6-Paper.pdfNeurIPS2020 OralNormalization 없이 학습을 진행했을 때 performance degradat
이전까지 Adversarial Training 으로 학습된 Neural Network 는 vanilla training 에 비해서 accuracy 에서 손해를 보는 것이 잘 알려져 있었다. 이 논문은 이러한 Robustness ↔ Accuracy 간의 Trade-off
CNN-based Object Detector 들은 NMS 나 anchor 등의 (Anchor-free 방식이 제시되긴 하였지만) 등의 hand-crafted processing 은 Detector 학습에 중요한 heuristic 적인 요소이다. DETR 는 이러한 부
Transformer 의 성공으로 NLP 및 다른 분야에서 점차 그 영향력을 넓혀가고 있다. 이 논문은 Vision Task 에서의 multi-heads self-attention 이 임의의 convolution 을 잘 모사할 수 있기 때문이라고 주장하고, 이에 대한