CNN과 달리 ViT 는 patch 간의 inter-dependencies 를 고려하기 때문에 long-range context를 학습할 수 있음. 여기에 더해, SwinT 는 ViT 의 O(n^2) self attention 알고리즘을 O(n) 으로 줄였으며, 이는 큰 데이터가 사용되는 의학 영상에 큰 의미가 있음. SwinT 는 hierarchical structure 을 사용해서 multi-scale modeling 에도 가능하다고 하니, 각 encoder 단에서의 features 로 classification model을 생성해보는 것도 가능할 듯 싶음.
Transformer 계열 모델은 pre-training 단에서 유의미한 학습을 하는 것이 알려져 있음 [44]. 이에 더해, 의학 영상은 annotation이 매우 까다로워서 지도학습을 할 수가 없으며, 기존의 2D transformer 모델들은 cross-plane context를 잡지 못하는 문제가 있다고 알려져 있음. 따라서, 저자들은 3D SwinT UNETR 을 제시하고, image impainting, 3D rotation prediction, and contrastive learning 을 통해 pretraining 을 시도함. Annotation이 없어도, 인간의 anatomy는 정형화 되어있기 때문에 self-supervised 이 유효하다고 판단한듯. 각 proxy task의 역할은 다음과 같다.
주변 surrounding 으로부터 masked region의 texture, structure, and correspondence를 학습하자.
Anatomy의 ROI를 구별하는 법을 배우자
이미지의 구조를 학습하고 contrastive learning 에 사용할 sub-volume 를 생성해보자.
저자들은 5050장의 CT 이미지에 해당 스키마를 적용했다고 한다.