
의료 이미지 분할(Medical image segmentation)은 질병 진단 및 치료 계획을 수립하는 최첨단 의료 시스템에서 매우 중요한 역할을 합니다. 그동안 이 분야에서는 대칭적인 인코더-디코더 구조와 스킵 연결(skip-connection)을 특징으로 하는 U-Net 구조가 엄청난 성공을 거두며 표준으로 자리 잡았습니다.
하지만 기존 CNN(합성곱 신경망) 기반의 U-Net은 치명적인 한계가 있었습니다. 바로 합성곱 연산 고유의 '국소성(locality)' 때문에 이미지 내의 멀리 떨어진 영역 간의 관계(long-range dependencies)를 효과적으로 모델링하기 어렵다는 점입니다. 환자마다 장기의 모양, 크기, 텍스처 변동성이 큰 의료 데이터에서는 이러한 단점이 더욱 두드러집니다.
이러한 한계를 극복하기 위해 연구진은 글로벌 문맥(global context)을 파악하는 데 탁월한 Transformer의 Self-attention 메커니즘에 주목했습니다.
이번에 소개할 3D TransUNet은 기존 2D TransUNet 구조를 3D 네트워크로 확장한 모델입니다. 성능이 입증된 nnU-Net 아키텍처를 기반으로 하며, 인코더와 디코더 설계 모두에서 Transformer의 잠재력을 최대한 끌어냈습니다. 핵심은 CNN이 가진 고해상도 공간 디테일 처리 능력과 Transformer의 글로벌 문맥 파악 능력을 하이브리드 형태로 결합한 것입니다.
1. 글로벌 문맥을 이해하는 Transformer 인코더 (Transformer Encoder)
2. 후보 영역을 정교하게 다듬는 Transformer 디코더 (Transformer Decoder)
흥미로운 점은 수행하는 의료 태스크에 따라 최적의 아키텍처 디자인이 다르다는 것입니다.
연구진의 실험에 따르면, 다중 장기 분할에서는 인코더 중심의 설계가 유리하고, 미세한 병변이나 종양을 찾을 때는 디코더 중심의 설계가 더 적합합니다.
3D TransUNet은 다중 장기 분할, 췌장 종양 분할, 간 혈관 분할 등 다양한 의료 애플리케이션에서 경쟁 모델들을 압도하는 성능을 보여주었습니다. 특히 뇌종양 분할 대회인 BraTS2021 챌린지에서는 기존 최고 솔루션(nnU-Net-Large)의 성능을 뛰어넘는 성과를 기록했습니다.
3D TransUNet은 단순히 최신 기술을 이어 붙인 것을 넘어, 태스크의 특성(큰 장기 vs 작은 종양)에 맞게 Transformer를 전략적으로 배치하는 통찰력을 보여준 연구입니다. 의료 AI 분야에서 아키텍처 설계의 새로운 기준을 제시한 이 모델이 앞으로 실제 임상 환경에서 어떻게 활약할지 기대가 됩니다.