Chest CT 촬영은 빠른 결과와 낮은 비용으로 pulmonary infection에 높은 sensitivity를 갖는다는 이점이 있다. 최근에는 딥러닝 기반의 방법으로 진단에 많은 도움을 얻고 있다. 그러나 딥러닝 모델을 학습하기 위해서는 많은 data가 필요하나 COVID-19 data를 얻는데는 전염성이 높아 위험하고 labeling을 할 수 있는 전문 인력도 부족하다. 이러한 문제점을 해결하기 위해 본 논문에서는 conditional generative adversarial network를 이용한 CT image synthesis 접근법을 제안하였다. 실험 결과, image synthesis에서 state-of-the-art를 달성했고 semantic segmentation에서 향상된 결과를 얻었다.
COVID-19 CT data를 모으는 것은 어렵고 시간이 많이 든다. 그래서 본 논문에서는 global-local generator와 multi-resolution discriminator를 포함한 cGAN structure를 제안하였다.
주요 contribution은 다음과 같다.
(1) 서로 다른 CT data의 information을 포함한 global-local generator를 제안하였다.
(2) Multi-resolution을 입력으로 받는 dual discriminator를 제안하였다.
(3) Dynamic communication mechanism이 generator와 discriminator를 위해 적용되었다. Generator는 DESUM(Dynamic Element-wise Sum process)가 제안 되었고 discriminator는 DFM(Dynamic Feature Matching process)가 제안 되었다.
(4) 제안 된 방법은 image synthesizer중에서 state-of-the-art를 달성했다.
(5) 제안 된 image synthesis 기반의 COVID-19 chest CT data 수집 방법은 딥러닝 모델 학습 시 data augmentation의 효과를 얻을 수 있고 intern radiologists의 훈련에도 사용될 수 있다. 마지막으로 X-ray, MRI와 같은 다른 medical imaging에 transfer이 가능하도록 한다.
Structure는 두 가지로 구분된다. Global-local generator, multi-resolution discriminator이다.
Global-information generator 은 semantic segmentation map과 image structure information과 같은 high-level knowledge를 포함하고 있으며 local-detail generator 는 image texture, fine structure와 같은 detail을 포함하고 있다.
의 구조는 위 그림과 같다.
은 full-resolution의 image를 입력으로 받으며 CT image의 local information을 학습한다. 는 half-resolution의 image를 입력으로 받으며 global information을 학습한다. Multi-resolution discriminator의 의 구조는 위 그림과 같다. Discriminator는 70x70의 receptive field를 가지며 input에 대해 pixel-wise로 decision을 내린다. Dual-discriminator와 DFM은 효과적으로 local detail을 학습하고 synthesized image의 quality를 높여준다.
DESUM process는 로 부터 얻은 두 가지의 feature를 취한다. Weighting network에서는 이 입력으로 들어가면 를 출력하며 3개의 convolution layer와 2개의 fully-connected layer로 구성되어 있다.
DFM은 DESUM process와 동일한 CNN structure를 사용한다. 의 해당 feature가 들어가면 를 출력한다. 는 DFM loss에 사용된다.
Loss term은 두 가지가 있다.
첫 번째 loss는 cGAN loss이고 두 번째 loss는 dynamic feature matching을 위한 DFM loss이다.
cGAN loss는 pix2pix를 기반으로 하였다. 는 가 global-local임에 따라 global-local generator를 나타낸다.
위 식에서 는 의 layer를 상징하며 는 layer에서 elements의 전체 수를 나타낸다.
실험 시 pre-trained된 만을 사용한다. 의 input은 경험이 많은 radiologists가 만든 segmentation map이다. 출력으로는 synthesized lung CT image가 생성된다. 마지막 과정으로 non-lung area에 synthesized lung image를 combine 함으로 synthesized image를 완성한다.
9명의 COVID-19 환자로 부터 얻은 892개의 lung CT slice를 사용하였다. 그 중 446개의 slice가 감염되었다. 300개는 image synthesis의 학습에 사용되었고 73개는 실험에 사용되었다. 나머지 73개는 semantic segmentation의 실험에 사용되었다.
Image synthesis의 evaluation metric으로는 FID, PSNR, SSIM, RMSE를 사용하였다. Semantic segmentation의 evaluation metric으로는 dice score, sensitivity, specificity를 사용하였다.
위 표에서 complemented image는 lung CT image가 merge된 image이다. 다른 방법들과 비교했을 때 image synthesis에서 state-of-the-art를 달성했다.
위 표는 image synthesis에서 얻은 synthesized lung image를 학습 data의 0~50%를 대체하였을 때의 성능을 보여준다. 성능의 높은 향상은 보기 어려웠으나 consolidation은 synthesized lung image를 추가하는 것이 더 좋은 결과를 얻었다.
다음으로 학습 data를 고정하고 synthesized lung image를 학습 data의 0~50% 추가하였을 때의 결과이다. 모든 부분에서 synthesized lung image를 추가한 것이 더 좋은 결과를 가져왔다.
본 논문은 감염 증상인 ground-glass opacity, consolidation의 segmentation map에 대한 cGAN 기반의 COVID-19 CT image synthesis 방법을 제안하였다. Global-local generator와 multi-resolution discriminator는 global information과 local detail의 효과적인 균형을 이루었다. 실험 결과는 이 방법이 실제와 비슷한 synthetic CT image를 만들 수 있고 state-of-the-art를 달성하였음을 보여준다. 게다가 synthetic CT image를 semantic segmentation task에 적용 시 더 좋은 성능을 보여줬다.