
CVPR 2023 Best paper상을 수상한 논문이다.
복잡한 Computer Vision 문제를 일반적으로 해결하기 위해, LLM을 활용한 접근 방식을 제안.
▷ 자연어로 된 명령을 코드로 변환하고, 해당 코드를 이미지에 대해 실행하여 결과를 도출.
-----
아래와 같은 명령과 이미지를 입력한다.


1) VQA

2) Natural Language Visual Reasoning

3)Factual Knowledge Object Tagging

4) Natural Language Image Editing


문제를 해결하는 작은 단위인 모듈들이 정의되어 있다.

LLM을 활용하여, 자연어로 된 명령의 의미를 파악한다.
파악한 문제를 해결하기 위해, 모듈들을 조합해 알고리즘을 작성한다.

▷ VQA task에 LLM을 사용한 접근법을 제시함.
▷ 비슷한 점: Vision 문제에 LLM을 사용.
▷ 다른 점
1) 이미지를 캡션 또는 태그로 변환하여 GPT가 이해할 수 있는 텍스트로 전환.
2) VQA task에 한정됨.

▷ LLM을 활용해 로봇의 action plan을 생성.
▷ 비슷한 점: GPT를 활용해, 미리 만들어둔 모듈을 사용하는 알고리즘을 작성.
▷ 다른 점: VisProg의 모듈이 좀더 일반적으로 정의되어 있음.(저자들의 주장)
▷ 대량의 데이터를 사용해, 특정 task에 pre-training된 모델을 만들어 냄.
▷ training된 특정 문제가 아닌 task에 효과적이지 못함.
▷ pre-training 필요 없음.
▷ 다양한 유형의 task를 처리할 수 있음.
▷ 결과가 생성된 각 단계별로 해석 가능.
▷ 파란색으로 칠해진 부분이, gpt가 프로그램을 잘못 작성해서 틀린 부분이다.
▷ 직접 테스트해보면서 발생한 incorrect program 예시


▷ 현재는 한 번에 프로그램을 생성.
▷ 일부 행동을 수행하고 새로운 정보를 밝힌 후에는,
이 새로운 데이터를 수용하기 위해 프로그램을 업데이트하거나 확장해야 할 수 있음.
▷ 예시)
“카메라 영상에서 특정 사람을 추적해줘”
초기 프로그램: 첫 번째 카메라 영상에서 특정 사람을 식별.
사람이 다른 카메라 영역으로 이동했음을 인식.
프로그램에 다음 카메라 영상을 분석하는 단계를 추가함.
https://arxiv.org/pdf/2211.11559.pdf
https://blog.allenai.org/visual-programming-ca58c7af51cd
Ishika Singh, Valts Blukis, Arsalan Mousavian, Ankit Goyal, Danfei Xu, Jonathan Tremblay, Dieter Fox, Jesse Thomason, and Animesh Garg. Progprompt: Generating situated robot task plans using large language models. ArXiv, abs/2209.11302, 2022. 3
Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, and Lijuan Wang. An empirical study of gpt-3 for few-shot knowledge-based vqa. In AAAI, 2022. 3