text
를 입력으로 주고, 거기에 맞는 segment mask를 주는 code는 찾지 못했는데, 추가된게 있나 확인해봐야함.Masked Autoencoder(MAE) pre-trained ViT
를 사용Masked Autoencoder(MAE)
Vision Transformer
(batch, 1, embed_dim)
(batch, 1, embed_dim)
(batch, 2, embed_dim)
(batch, 2, embed_dim)
어떤 prompt를 주던, mask만 생성하지, label은 생성하지 않음!!
focal loss
and dice loss
focal loss
: 더 어려운 객체에 대해 가중치를 주어 학습한다.dice loss
: IOU보다 더 recall에 집중한 개념 (예측 mask가 GT mask를 최대한 많이 포함할수록 무조건 좋은 metric)Model-assisted 주석을 사용하는 수동 단계
자동으로 예측된 마스크와 model-assisted 주석이 혼합된 반자동 단계
완전 자동 단계
주석 입력 없이
마스크를 생성한다.이 단계의 시작에서 SAM은 공개된 segmentation 데이터셋을 사용하여 학습을 받았다.
첫 번째 단계에서는 고전적인 interactive segmentation과 유사하며,
저자들은 개체에 레이블을 지정하는 데 의미론적 제약을 부과하지 않았으며, 주석자는 “물건”과 “사물” 모두에 자유롭게 레이블을 지정했다.
충분한 데이터 주석 후 SAM은 새로 주석이 달린 마스크만 사용하여 재학습되었다.
더 많은 마스크가 수집됨에 따라 이미지 인코더가 ViT-B에서 ViT-H로 확장되었으며 기타 아키텍처 세부 사항이 발전했다.
총 6번 모델을 재학습했다.
모델이 개선됨에 따라 마스크당 평균 주석 시간이 34초에서 14초로 감소했으며, 이미지당 평균 마스크 수가 20개에서 44개 마스크로 증가했다.
전반적으로 이 단계에서 12만 개의 이미지에서 430만 개의 마스크를 수집했다.