본 논문은 controllable signal을 적용한 최초의 zero-shot captioning method인 ConZIC을 소개한다.
Paper : ConZIC_ Controllable Zero-shot Image Captioning by Sampling-Based Polishing
최근 제로샷 가능성은 딥러닝에서 중요한 이슈이다. 특히, 이미지캡셔닝에서의 기존 Supervised methods들은 많은 양의 high quality paired data에 의존하고, train data 분포에서 벗어나는 real-world에 대한 정보를 반영하기 어렵다는 한계점이 존재한다.
이에 본 논문에서는
1) Gibbs sampling과 MLM의 관계를 분석하여, 새로운 Language Model인 Gibbs-BERT를 제안하고,
2) 이를 CLIP과 결합한 Controllable Zero-shot Image Captioning method인 ConZIC을 소개한다.
이미지 캡셔닝 task를 zero-shot으로 수행하고자 하는 연구가 진행되었고, 그 중 대표적인 method가 Zerocap이다.
- Zero-shot image captioning, ZeroCap
: 거대 pre-trained 모델의 지식을 활용하여 지도학습 없이 캡션을 생성- ZeroCap 관련 정리는 이전 MAGIC 논문 리뷰에서 했으므로 간단히 언급하고 넘어가겠다.
기존에 존재하는 유일한 zero-shot captioning 모델인 Zerocap은 아래와 같은 한계점이 존재한다.
=> 이러한 한계점을 극복하는 Controllable Zero-shot Image Captioning, ConZIC을 소개한다.
Main Contribution
ConZIC의 전반적인 아키텍쳐는 다음과 같다.
ConZIC은 이미지 I와 Control signal C가 주어졌을 때,
언어 모델의 Likelihood p(x<1,n>|I,C) 를 최대화 하는 x<1,n>를 searching하며 캡셔닝을 수행하고, 목적함수를 수식으로 나타내면 다음과 같다. (According to the Bayes rule,)
Log likelihood 각각은 1) 자연스러운 문장 생성을 유도하고, 2) image 와 캡션의 유사도를 계산하며, 3) control signal을 만족하는 캡션 생성하도록 유도한다.
기존 Autoregressive Generation 방식은 이전까지의 토큰을 고려해 다음 토큰을 autoregressive하게 생성한다. 이는 낮은 다양성과 에러 축적의 가능성이 존재한다. (low diversity, error accumulation)
따라서, Gibbs sampling 과 Masked Language model 을 결합한 'sampling-based LM' 을 새롭게 정의한다.
** Gibbs sampling ?
- MCMC 알고리즘에 기반한 샘플링 방법
: data의 결합분포 p(x<1,n>) 로부터 반복적으로 xi 샘플링하고, 반복을 통해 조건부분포 p(xi|x−i)에 가까운 x를 샘플링한다.
(x−i : xi 제외한 다른 랜덤 변수)- 샘플링 초기에는 x-i에 크게 의존하지만, 충분히 많이 뽑고 난 뒤에는 초기 상태에 관계없이 p에 기반한 표본 수집할 수 있다.
- 또한, Gibbs sampling은 샘플링 순서가 자유롭기 때문에, mode collapse 를 벗어나 더 다양한 캡션 생성을 가능하게 한다.
t 시점의 xi 예측하는 과정
image-text 유사도 반영하기 위해 CLIP matching score CLIP(sk, I) 를 계산한다.
이때 Gibbs-BERT가
1) top-K 후보 단어 선정하고,
2) i 번째 [MASK] token 대신 K개의 후보 단어를 넣고, K개의 후보 문장을 생성한다.
3) 후보 문장들과 이미지I 간의 CLIP 유사도를 구하고, softmax 취해 최종 CLIP matching score를 얻는다.
앞서 언급한 framework1,2,3 에 따라, 최종적인 단어 예측확률은
Overall Algorithm -> 초기 캡션 : "Image of [MASK][MASK] [MASK]..."
-> Gibbs-BERT가 top-K 후보 단어 선정하여 K개의 후보 문장 sk 선별한다.
-> 후보 문장에 대한 text-image score p(I|x<1,n>) & text-control matching score p(C|x<1,n>)를 구한다.
-> 이를 Gibbs-BERT predicted distributions p(xi|x−i) 와 결합해 최종 확률분포 구함 = Final distribution
-> 확률값 가장 높은 xi 선택하는 과정을 매 time step에서 반복한다.
BLEU-4, METEOR, CIDEr, SPICE metrics에서 supervised method 보다 성능 좋지 못하다.
이유 : supervised metrics이므로 MSCOCO의 train, test data annotation에서의 유사성이 반영되었기 때문. 즉 train과 test에서 비슷한 캡션 스타일로 인해 domain bias가 생긴다.
=> supervised method는 점수는 높지만 생성된 캡션의 다양성 떨어진다.
Diversity 측면에서 기존 Diversity-based Methods 보다 큰 차이로 좋은 성능을 보인다.
Semantic-related metrics 에서도 좋은 성능을 보인다.
zero-shot performance를 측정하기 위해, MSCOCO로 train된 supervised method를 SketchyCOCO caption dataset으로 성능 평가를 진행했다.
다음으로, 네 가지 Controllable tasks에 대한 실험을 진행했다.
빈칸 채우기 task에서 image 정보와 고정된 주변 단어 정보를 모두 반영한 결과이다.
ConZIC의 Gibbs-BERT는 bidirectional attention에 기반한 모델이므로 classifier를 추가하지 않고도 task 수행이 가능하다.
( Zerocap은 autoregressive LM 사용하므로 해당 task 수행시 left context 정보만 반영 )
Conclusion
Future work