Swin UNETR

Treeboy·2022년 12월 29일

Medical Image

목록 보기

1/6

Background

CNN과 달리 ViT 는 patch 간의 inter-dependencies 를 고려하기 때문에 long-range context를 학습할 수 있음. 여기에 더해, SwinT 는 ViT 의 O(n^2) self attention 알고리즘을 O(n) 으로 줄였으며, 이는 큰 데이터가 사용되는 의학 영상에 큰 의미가 있음. SwinT 는 hierarchical structure 을 사용해서 multi-scale modeling 에도 가능하다고 하니, 각 encoder 단에서의 features 로 classification model을 생성해보는 것도 가능할 듯 싶음.

Transformer 계열 모델은 pre-training 단에서 유의미한 학습을 하는 것이 알려져 있음 [44]. 이에 더해, 의학 영상은 annotation이 매우 까다로워서 지도학습을 할 수가 없으며, 기존의 2D transformer 모델들은 cross-plane context를 잡지 못하는 문제가 있다고 알려져 있음. 따라서, 저자들은 3D SwinT UNETR 을 제시하고, image impainting, 3D rotation prediction, and contrastive learning 을 통해 pretraining 을 시도함. Annotation이 없어도, 인간의 anatomy는 정형화 되어있기 때문에 self-supervised 이 유효하다고 판단한듯. 각 proxy task의 역할은 다음과 같다.

Masked volume impainting

주변 surrounding 으로부터 masked region의 texture, structure, and correspondence를 학습하자.

Contrastive learning

Anatomy의 ROI를 구별하는 법을 배우자

3D rotation prediction

이미지의 구조를 학습하고 contrastive learning 에 사용할 sub-volume 를 생성해보자.

저자들은 5050장의 CT 이미지에 해당 스키마를 적용했다고 한다.

Treeboy

다음 포스트

Swin UNETR

Medical Image

Background

ProtoPNet Architecture [1]

0개의 댓글

관련 채용 정보