
원문 해석
의료 영상은 노이즈와 아티팩트 때문에 대비(contrast)가 낮고, 경계(edge)가 흐릿한 경우가 많습니다. 게다가 장기나 조직은 모양도 다양하고 분포도 복잡합니다. 그래서 관심 영역(ROI)을 정확히 분할하려면, 모델이 로컬(local) 특징과 글로벌(global) 문맥을 동시에 잘 이해할 수 있어야 합니다.
현재 많은 연구들이 트랜스포머와 CNN을 결합해서 이 능력을 키우려 하지만, 대부분은 단순히 스킵 연결이나 병목 계층에 트랜스포머를 넣는 정도에 그칩니다. 이런 방식은 로컬/글로벌 특징의 상호작용이 충분하지 않아서, CNN과 트랜스포머의 보완적 장점과 시너지 효과를 다 살리지 못합니다.
→ 이 문제를 풀기 위해, 저자들은 FE Transformer라는 새로운 하이브리드 특징 추출 모듈을 제안했습니다. 이 모듈은 CNN과 Self-Attention을 이중 경로(dual-path)로 함께 사용해서 로컬/글로벌 특징을 동시에 잡아냅니다. 또 두 경로를 촘촘한 크로스 연결(dense cross-connections)로 연결해서 상호작용과 융합을 강화했습니다. 실험(섹션 VI-B)과 비교 연구를 통해 이 모듈의 효과를 검증했습니다.
계층적 특징 추출 과정에서 다운샘플링은 연산 효율을 높이고 리셉티브 필드를 확장하는 데 꼭 필요합니다. 하지만 기존의 풀링, 선형 프로젝션, 스트라이드 합성곱 같은 방법들은 세밀한 정보 손실 문제가 있습니다. 그런데 이 디테일은 의료 영상 분할에서 정말 중요합니다. 예를 들어, 미묘한 질감이나 경계 정보가 비슷한 조직을 구분하는 핵심일 수 있습니다.
→ 이를 해결하기 위해 저자들은 SPM(Symmetric Patch Merging) 모듈을 제안했습니다. 이 모듈은 다운샘플링된 특징과 원본 특징의 차이를 활용해, 세밀한 정보 보상 메커니즘을 만듭니다. 또 Difference Map을 추가해서, 미묘한 패턴 구분에 도움이 되는 고주파(high-frequency) 신호를 강조하고, 모델이 고주파 디테일에 더 민감하게 반응하도록 합니다. 섹션 VI-A에서 이 모듈의 성능을 비교/분석했고, 다양한 딥러닝 모델에 플러그-앤-플레이로 적용 가능하다는 걸 보여줍니다.
이번 글에서는 FocalTransNet 논문에서 제안된 핵심 모듈들의 구조와 동작 과정을 정리한다.
일단, 크게 보면 네 가지 모듈로 나눌 수 있습니다:

SPM은 단순 다운샘플링(pooling, stride conv 등)에서 발생하는 세밀한 정보 손실 문제를 해결하기 위해 제안된 모듈이다.
즉, 해상도를 절반으로 줄이면서도 세밀한 디테일을 최대한 보존하는 다운샘플링 방식이다.
FE Transformer는 CNN과 Transformer의 장점을 모두 결합하는 Dual-path 구조로 설계되었다.
기존 하이브리드 네트워크가 단순히 두 모듈을 이어 붙이는 수준이었다면,
FE Transformer는 두 경로 간 촘촘한 교차 연결(Dense Cross-connections)을 통해

FE Transformer는 크게 네 가지 블록으로 나뉜다:
SA (Self-Attention Block)
FA (Focal Aggregation Block)
LE (Local Enhancement Block)
AE (Attention Enhancement Block)
SA 블록: 전역 문맥(Global Context)을 이해하는 핵심 모듈
FA 블록: 국소적(Local) 디테일을 보완하는 CNN 기반 모듈
LE/AE 블록: 두 경로 사이의 정보 교환을 촘촘히 만들어 시너지를 극대화
스택 구조: 단일 블록보다 반복적으로 쌓아 올리며 더 강력한 표현 학습 가능
논문 내에서의 FE Transformer 모듈의 논의 내용에 해당하는 이미지는 바로 아래를 참조

FE Transformer는 단순히 CNN과 Transformer를 붙여놓는 게 아니라, 로컬(local)과 글로벌(global) 특징을 깊게 융합한다는 점에서 차별화된다.
Attention Gate는 디코더 단계에서 스킵 연결로 전달되는 불필요한 정보를 걸러내고, 중요한 특징만 통과시키는 역할을 한다.
AG는 “필요한 손님만 들여보내는 문지기” 같은 역할을 한다.
CAM은 디코더 단계에서 AG를 거친 특징을 더 정제하는 모듈로,
채널 어텐션 + 공간 어텐션을 동시에 적용한다.
CAM은 “중요한 채널과 위치에 스포트라이트를 비춰주는 모듈”이라고 이해할 수 있다.
각 SPM, FE Transformer 등의 모듈에 대한 논의 내용은 자세하게 작성하지 않았기에 글에서 이해가 부족한 부분은 직접 찾아보는 것을 추천합니다.
마지막으로 한계점으로는, 완전 지도학습 방식이라 라벨된 데이터가 필요했으며, 의료 영상은 조직/장기 다양성과 복잡한 구조로 인해 수작업 라벨링 비용이 매우 크고 품질 관리에 어려움이 있었다고 합니다.