# Zero-shot

Large Language Models are Zero-Shot Reasoners (NIPS 2022)
Introduction LLM과 prompting은 Hot Topic in NLP task-specific한 few-shot, zero-shot prompting의 한계를 극복하기 위한 method인 CoT의 등장은 매우 Novel 특히 CoT 성능은 모델 scale과 비례하기에 LLM의 한계를 뛰어 넘게 해줌 우리는 이러한 CoT가 zero-shot에서도 잘 작동함을 보여줄 것 특히 Zero-shot CoT는 versatile(다재다능)하며 task-agnostic(특정 task에 구애받지 않음)함 (이전 prompting method와 차별화되는 점) empirical하게 향상된 성능을 보여줌 few-shot CoT에서는 human engineering이 필요해 hu

[논문 리뷰] ConZIC_ Controllable Zero-shot Image Captioning by Sampling-Based Polishing
본 논문은 controllable signal을 적용한 최초의 zero-shot captioning method인 ConZIC을 소개한다. Paper : ConZIC_ Controllable Zero-shot Image Captioning by Sampling-Based Polishing Introduction 최근 제로샷 가능성은 딥러닝에서 중요한 이슈이다. 특히, 이미지캡셔닝에서의 기존 Supervised methods들은 많은 양의 high quality paired data에 의존하고, train data 분포에서 벗어나는 real-world에 대한 정보를 반영하기 어렵다는 한계점이 존재한다. 이에 본 논문에서는 1)

[논문 리뷰] Language Models Can See_ Plugging Visual Controls in Text Generation
본 논문은 2022년 arXiv에 등재된 이미지캡셔닝 관련 논문으로, 기존의 CLIP기반 이미지 캡셔닝 모델의 한계점인 paired data dependency를 극복할 새로운 decoding strategy를 활용한 모델을 제안한다. Paper : Language Models Can See_ Plugging Visual Controls in Text Generation 1. Introduction Pre-train Language Model 최근 거대 Pre-train 모델은 NLP task에서 좋은 성능을 달성했다. 예를 들어 GPT-2는 디코딩을 통해 next token 예측할 시, textua
[Lab #3-1] When is BERT Multilingual? Isolating Crucial Ingredients for Cross-lingual Transfer (NAACL, 2022)
0. Abstract multilingual language 모델이 발전하면서 cross-lingual zero-shot transfer 할 수 있는 능력치도 상승함. 하지만 어떤 properties들이 언어간에 transfer 되는지에 대한 연구는 부족함. 본 연구에서는 다양한 실험들을 통해서 linguistic properties들의 효과에 대해서 분석한다. 이를 위해서 4가지 언어를 사용하며 각각의 script, word, order, syntax에 변화를 줘서 실험해본다. 결과적으로 언어간의 순서가 다를 때 sub-word overlap의 부재는 zero-shot transfer 성능에 엄청 큰 영향을 미쳤다. (한국어랑 영어가 예시이겠군) 그리고 언어간의 transfer performance랑 word embedding alignment가 큰 상관관계가 있었음. 앞으로 연구를 할때 implicit한 정보말고 word embedding alignment에 힘줄 것을

DetectGPT(2023)_논문 리뷰
ChatGPT와 같은 GPT 기반의 언어모델이 작성한 글을 탐지할 수 있는, 2023년 1월에 나온 따끈따끈한 모델인, DetectGPT📡 에 대한 논문입니다. 최대한 논문의 모든 내용을 세세하게 읽고 풀번역 수준으로 리뷰하고자 하였습니다. 감사합니다 :) Paper : https://arxiv.org/pdf/2301.11305.pdf Code : https://ericmitchell.ai/detectgpt/ Instagram Review : Abstract (배경 & 문제) LLM(Large Language Model)이 작성한 문장의 유창함과 사실적 지식은 텍스트가 기계에 의해 작성되었는지 여부를 감지하는 시스템의 필요성을 높였습니다. 실제로 ChatGPT의 등장 이후 학생들은 LLM을 사용하여 텍스트 작성 과제를 할 수 있게 되었으며, 이로 인해 선생들은 학생의 학습 성취도를 정확하게 평가할 수 없게 되

[GPT-2] Language Models are Unsupervised Multitask Learners
Intro GPT-1의 마지막 파트를 살펴보면 pretrain된 모델이 downstream task에 대해 학습되지 않은 상태에서 각 태스크에 대해 어느 정도의 성능을 보이는지 측정한 파트가 있다. 매우 단순하게 pretrain이 실제로 다양한 downstream task를 수행할만큼 언어구조를 이해하도록 학습하는지 확인하는 절차였던 것 같다. 이는 모델이 수행해야 하는 태스크를 전혀 학습하지 못한채, input으로 각 태스크의 input과 이를 LM이 수행할 수 있도록 해주는 프롬프트만 입력하는 일종의 zero-shot 환경에서의 성능이라 볼 수 있다. GPT-2는 이를 더 확장하여 더 큰 모델이 더 많은 데이터에 학습했을 때, 유의미한 수준의 zero-shot 성능을 보이는지 확인하는 논문이라 할 수 있다. GPT 논문을 읽기 전까지 마냥 데이터 우겨넣고 모델만 키울 줄 아는 OpenAI놈들이라 비하하던 나 자신을 후회하며 두번째 논문 리뷰를 시작해보자. Backgr

[논문리뷰] DALL-E: Zero-Shot Text-to-Image Generation
Paper: https://arxiv.org/abs/2102.12092 Code: https://github.com/openai/DALL-E > OPENAI의 재미있는 연구인 DALL-E에 대해 정리해봅시다. 0. Abstract Text-to-image generation은 원래 전통적으로 fixed dataset을 학습하기 위한 더 좋은 모델(의 가정)을 찾는 것에 초점을 두고 연구가 진행돼왔습니다. 그렇다 보니 이런 모델링 가정들은 복잡한 구조, 보조 손실 함수, 추가적인 라벨(object part, or segmentation mask) 등을 필요로 하곤 했습니다. 저자들은 이렇게 복잡한 가정들을 필요로 하지 않는 간단한 접근법을 제안합니다. 특히, 이런 접근법은 text와 image tokens을 마치 데이터의 single stream으로서 autoregressive하게 모델링하는 트랜스포머를 기반