sparse object coverage
inaccurate object boundary
co-occuring pixels from non-target objects
⇒ 이러한 문제점들을 해결하기 위해 EPS를 제안한다.
WSSS는 weak supervision을 이용해서 fully-supervised model과 비슷한 성능을 내는 것을 목표로 한다.
대부분의 WSSS모델은 weak supervision으로 image-level label을 택한다.
WSSS의 전체적인 파이프라인은 two stage로 구성되어 있다.
1) pseudo-mask 생성 (image classifier 이용)
2) pseudo-mask로 segmentation model 학습
주로 CAM(Class Activation Map)을 통해서 localization map(Pseudo mask)를 생성한다.
하지만 WSSS에는 문제점들이 존재한다.
이러한 문제들을 해결하기 위해 기존의 연구에서는 다음과 같은 방법들을 제시했다.
픽셀들을 지워나가며, object의 full extent를 cover
Ensembling score maps
Using self-supervised signal
⇒ 하지만, object의 shape에 대한 단서가 부족해서 accurate boundary를 뽑아내는데는 실패했다.
Expand pseudo-masks until boundaries
⇒ target object와 non-target object가 공존하는 pixel을 구분하는 것에 실패했다.
extra GT masks, saliency map을 이용해서 co-occurence problem을 이용해서 완화
⇒ pixel-level annotation을 필요로 하므로, WSSS paradigm에 맞지 않다.
본 논문에서는 localization map(CAM from image-level labels)과 saliency map을 통해서 위에서 제시한 세가지 문제점들을 해결한다.
Saliency loss
multi-label classification loss
Total