APseg는 적은 데이터만으로 새로운 도메인의 이미지를 분할하는 Cross-Domain Few-Shot Semantic Segmentation (CD-FSS) 문제를 해결하기 위해 제안된 APSeg 네트워크이다.. APSeg는 Segment Anything Model (SAM)을 기반으로, 별도의 수동 프롬프트나 파인튜닝 없이 분할 작업을 자동화하는 새로운 프레임워크다.

Few-Shot Semantic Segmentation (FSS)은 적은 수의 레이블된 샘플만으로 새로운 클래스의 객체를 분할하는 것을 목표로 한다. 하지만 기존 FSS 모델들은 학습 데이터와 테스트 데이터의 도메인이 유사하다고 가정하기 때문에, 의료나 위성 이미지처럼 성격이 전혀 다른 도메인에 적용될 경우 성능이 크게 저하되는 한계가 있다.
최근 강력한 성능으로 주목받은 SAM 역시 CD-FSS 문제에 바로 적용하기에는 몇 가지 어려움이 존재한다.
SAM은 주로 자연 이미지로 학습되어, 학습 데이터와 분포가 상이한 도메인에서는 만족스러운 성능을 내지 못한다.
특정 의미를 가진 객체를 자동으로 분할할 수 없으며, 사용자의 상호작용(점, 상자 등)을 필요로 하는 프롬프트 기반 모델이다.
제공되는 프롬프트의 미세한 변화에도 분할 정확도가 민감하게 반응할 수 있다.
APSeg는 이러한 문제들을 해결하기 위해 제안되었다.
APSeg는 SAM의 사전 학습된 이미지 인코더와 마스크 디코더의 파라미터를 동결시킨 상태로 유지하며, 두 가지 핵심 모듈을 추가하여 도메인 적응 및 자동 분할을 수행한다.

DPAT 모듈은 도메인 변화에 강건한 분할을 위해, 도메인에 종속적인(domain-specific) 특징을 도메인과 무관한(domain-agnostic) 특징 공간으로 변환하는 역할을 한다.
기존 방식과 달리 서포트(support) 이미지의 프로토타입뿐만 아니라, 쿼리(query) 이미지로부터 추출한 의사(pseudo) 프로토타입을 함께 활용하여 변환 행렬을 계산한다.
쿼리 이미지의 마스크가 없는 상태에서 신뢰도 높은 프로토타입을 추출하기 위해 Cycle-Consistent Selection (CCS) 기법을 사용한다.
두 프로토타입의 융합을 통해 더 안정적인 특징 변환을 수행하여, 클래스 내 분산(intra-class variance)으로 인한 문제를 완화하고 도메인 격차를 효과적으로 줄인다.
MPG 모듈은 SAM의 수동 프롬프트 입력 방식을 대체하여, 분할에 필요한 프롬프트 임베딩을 자동으로 생성한다.
메타 학습(meta-learning) 방식을 통해 서포트-쿼리 쌍의 특징을 입력받아, SAM의 마스크 디코더가 요구하는 희소(sparse) 및 밀집(dense) 프롬프트 임베딩을 모두 생성한다.
희소 임베딩은 점(point) 프롬프트와 같은 역할을, 밀집 임베딩은 마스크(mask) 프롬프트와 유사한 역할을 수행한다.
이를 통해 사용자의 개입 없이 완전 자동으로 특정 객체를 분할하는 End-to-End 프레임워크를 구축한다.



APSeg는 자연 이미지 데이터셋(PASCAL VOC)에서 학습 후, 이전에 보지 못한 4개의 타겟 도메인(Chest X-ray, ISIC, FSS-1000, Deepglobe)에서 평가되었다.
성능 비교: 기존 SOTA CD-FSS 모델인 PATNet 대비 평균 mIoU가 1-shot에서 5.24%, 5-shot에서 3.10% 향상되었다.
도메인 일반화: 특히 소스-타겟 간 도메인 격차가 큰 Chest X-ray 데이터셋에서 1-shot 설정 기준 17.49%의 큰 성능 향상을 기록하며, 제안된 방법의 우수한 도메인 일반화 능력을 입증했다.
Ablation Study: DPAT와 MPG 모듈이 각각 모델 성능에 유의미하게 기여했으며, 두 모듈을 함께 사용했을 때 시너지가 발생하여 최상의 성능을 기록함을 확인했다.

APSeg는 CD-FSS 환경에 SAM을 효과적으로 적용하기 위한 자동 프롬프트 네트워크다.
DPAT 모듈을 통해 도메인에 구애받지 않는 안정적인 특징 변환을 수행하고, MPG 모듈을 통해 프롬프트 생성을 자동화하여 완전 자동 분할 프레임워크를 구축했다.
이를 통해 타겟 도메인에 대한 추가적인 파인튜닝 없이도, 기존의 SOTA 모델을 능가하는 높은 성능을 달성했다.