[간단리뷰] Segment Anything

Dev_bottle·2024년 5월 5일

🎯연구 동향 파악

목록 보기

1/7

foundation model?
논문 상에서는 두 가지 요건을 설명하고 있다.
1. 새로운 dataset에 대하여 zero-shot 혹은 few-shot learning을 수행해야함
2. prompting 기술을 이용해 특징 task를 수행할 수 있어야함

$\rightarrow$ Promptable model & pre-trained it on a broad dataset

진정한 foundation model을 구성할려면 세 가지 구성 요소를 고려해야 한다고 한다.

먼저 segmentation을 위한 large-scale source가 존재하지 않으므로 “data engine”이라는 기술을 통해 data를 수집하고록 한다.

✅ the goal is to return a valid segmentation mask given any segmentation prompt

여기서 “promptable하다”는 뭔 말일까?

Query로써 text 혹은 spatial information을 주어졌을 때, 합리적인 segmentation 결과가 나와져야 한다는 뜻이다

심지어 prompt가 애매모호하거나 여러 조건들을 붙이더라도 masking 결과는 합리적이어야 한다.

foundation model을 위해 다음과 같은 조건을 만족해야한다.

새로이 얻은 data distribution에 대해서 강력한 일반화 성능을 얻기 위해서, SAM에 굉장히 종류가 다양하고 거대한 mask dataset을 있어야한다.

model의 성능은 다음과 같은 요소에 의해서 결정됨

그러나 Computer vision에는 충분한 dataset이 없다

image encoder와 prompt encoder / mask decoder 세 가지로 구성한다.
prompt encoder에 다른 입력이 들어와도 image encoder는 동일한 작업을 하기 때문에
prompt에 굉장히 유연하다.

Embedding된 image은 Web-browser에서 ~10ms로 searching을 통해
prompt encoder와 mask decoder prediction을 진행한다.

single prompt에 대해서 multiple maks를 예측함으로써, 모호성을 잡아낼 수 있다.
- 가령 타조 머리에 annotation 했다면, 이것이 타조 머리인지? 타조 몸통인지? 타조 전체인지?에 대한 여러 task를 잡아내고, G.T.와 비교하여 score를 매기도록 한다. 이를 통해 prompt의 모호성을 잡아낼 수 있다.