해당 논문은 인공위성 이미지를 가지고 Semantic Segmentation을 하는 과정에 대해 서술하였다.
이들은 IGN Open data를 활용하였고 모델은 Swin Transformer를 사용하였다.
이 때 Swin Transformer의 경우 mmsegmentation을 기반으로 만들었다.
Dataset
클래스를 6개(Sparse forest, Dense forest, Moor, Herbaceous formation, Building, Road)로 축소하였다.
학습 시 ImageNet-22K로 사전학습된 모델을 가져와 사용하였고 Class Imbalnaced 문제 때문에 각 클래스별로 추가적인 weight를 더하였다. '
결과는 위의 그림과 같았고 총 3가지 한계점이 존재했다.
1. 위성 사진과 original segmentation은 같은 시간에 만들어진 것이 아니기 때문에 항상 정확하지는 않다.
2. 데이터셋에 정보가 없는 구간이 존재한다. 따라서 일정 비율 이상 정보가 없을 경우 제거해야한다.
3. 도로 segmentation은 다른 image에 가려져 안보이는 경우가 있어 정확하지 않다.