grounding
input으로 컨디셔닝 할 수 있도록 기능을 확장한 모델 GLIGEN(Grounded-Language-to-Image-Generation)을 제안freeze
시키고, grounding information을 삽입 할 수 있는 새 학습가능한 layer를 삽입해서 grounding dataset에 continual learning을 하였다.scheduled sampling
로 trade-off 조절이 가능하다.GLIGEN의 목표는, 기존의 text-to-image model인 pre-trained LDM의 기능을 확장해서 grounding input으로 추가적인 conditioning을 하게 하는 것이다.
grounding input은 다음과 같이 정의 할 수 있다.
Instruction
: Caption
: Grounding
: Instruction 는 Caption 와 Grounding 로 이루어져있음
Grounding은 spatial configuration
와 grounding entity
의 쌍들로 이루어져 있음
spatial configuration은 그라운딩 할 spatial 정보이며, 흔히 bounding box
이다. bbox일 경우, 의 top-left와 bottom-right의 좌표로 정의 된다.
grounding entity는 그라운딩할 semantic 정보로, text entity (of class name)을 사용하였다.
Caption Token
: LDM 전처리와 동일; Caption을 text encoder
에 통과 시켜서 얻음. 단순히,
Grounding Token
: grounding token은 text entity feature과 bbox feature를 함께 MLP를 통과시켜서 얻는다. text entity는 LDM과 동일한 text encoder를 통과하고, bbox는 Fourier embedding
을 통과한다.
저자들의 주장은, 새로운 layer를 closed-set인 COCO로 학습시켜도, 임의의 open voca에 대한 성능이 있다고 주장한다. 그 이유로 같은 text encoder 를 사용했기 때문이라고 한다.
ㅇㅇ