목적: 기존에 있던 multimodal 분야의 instruction following, 여러 모달리티 인식, in-context learning을 넘어 더 다양한 multimodal task(referring: 이미지에 있는 어떤 object의 위치도 언급하는 등)를 수행하는 모델을 만들어보자. → KOSMOS-1의 기본적인 multimodal 능력에 더해서 task를 확장하는 모델.
paper link: https://arxiv.org/pdf/2306.14824

COYO-700M
- https://huggingface.co/datasets/kakaobrain/coyo-labeled-300m
- https://huggingface.co/datasets/kakaobrain/coyo-700m
{
'id': 841814333321,
'url': 'https://blog.dogsof.com/wp-content/uploads/2021/03/Image-from-iOS-5-e1614711641382.jpg',
'text': 'A Pomsky dog sitting and smiling in field of orange flowers',
'width': 1000,
'height': 988,
'image_phash': 'c9b6a7d8469c1959',
'text_length': 59,
'word_count': 11,
'num_tokens_bert': 13,
'num_tokens_gpt': 12,
'num_faces': 0,
'clip_similarity_vitb32': 0.4296875,
'clip_similarity_vitl14': 0.35205078125,
'nsfw_score_opennsfw2': 0.00031447410583496094,
'nsfw_score_gantman': 0.03298913687467575,
'watermark_score': 0.1014641746878624,
'aesthetic_score_laion_v2': 5.435476303100586
}
LAION 2B
https://laion.ai/blog/laion-5b/
Dataset columns
We provide these columns :
URL: the image url, millions of domains are covered
TEXT: captions, in english for en, other languages for multi and nolang
WIDTH: picture width
HEIGHT: picture height
LANGUAGE: the language of the sample, only for laion2B-multi, computed using cld3
similarity: cosine between text and image ViT-B/32 embeddings, clip for en, mclip for multi and nolang
pwatermark: probability of being a watermarked image, computed using our watermark detector
punsafe: probability of being an unsafe image, computed using our clip based detector





<box>와 같은 special token으로 감싸줌.<box><loc1><loc2></box><p>태그로 감싸줌. → <p>text span</p><box><loc1><loc2></box>
<grounding> 토큰은 image에 존재하는 text에 대한 output을 생성 시작하기 위한 신호를 주는 토큰

Phrase Grounding

<s><image> Image Embedding </image><grounding><grounding>토큰부터 이후에 생성되는 토큰은 location에 관한 정보가 있는 location token<box>…</box> 와 같은 방식으로 생성되는데, 만약 location token이 하나만 생성되었으면 이는 오답으로 처리.
https://github.com/BryanPlummer/flickr30k_entities

Referring Expression Comprehension




