-
본 논문에서는, 복잡한 과제/모달리티별 사용자 정의의 지지구조를 깨기 위해, 다중 모달리티 사전 훈련을 위한 통합 패러다임을 추구합니다.
-
OFA(Task-Agnostic and Modality-Agnostic)라는 프레임워크를 제안하며, 이는 작업 포괄성(Task Comprehensiveness)을 지원합니다.
-
OFA는 시각적 지역화, 이미지 생성, 이미지 캡션 생성, 이미지 분류, 언어 모델링 등의 교차 모달리티 및 단일 모달리티 작업을 간단한 시퀀스-시퀀스 학습 프레임워크로 통합합니다.
-
OFA는 사전 훈련 및 미세 조정 단계에서 지시 기반 학습(instruction-based learning)을 따르며, 하위 작업을 위한 추가 작업별 레이어가 필요하지 않습니다.
- 지시 기반 학습(Instruction-based learning)은 모델이 각 작업에 대한 명시적인 지시사항을 제공받고 이를 바탕으로 학습하는 방식입니다.
- 이 방법은 명확한 지시사항을 제공함으로써 모델이 특정 작업을 수행하기 위해 필요한 지식과 특성을 빠르게 습득할 수 있게 됩니다.
- 예를 들어, 이미지 캡셔닝 작업을 수행하는 경우, 지시 사항은 "주어진 이미지에 대해 설명하는 문장 생성"입니다.
- 이러한 명확한 지시 사항을 제공하면, 모델은 이러한 작업을 수행하기 위해 이미지와 자연어 처리 기술을 연계하여 사용할 수 있는 특정 지식을 학습할 수 있습니다.
- 이러한 지시 기반 학습 방식은 모델이 여러 작업에 대해 빠르게 학습하고 다양한 작업에 적응할 수 있도록 도와주는 데에 유용합니다.
-
최근 대규모 교차 모달리티 데이터셋(Cross-modal datasets)에 의존하는 최첨단 비전 및 언어 모델과 비교해보면, OFA는 공개적으로 이용 가능한 이미지-텍스트 쌍만 2000만 개의 데이터로 사전 훈련되어 있음에도 불구하고
- 교차 모달리티 작업에서 새로운 최고 성능을 달성하면서 단일 모달리티 작업에서 매우 경쟁력 있는 성능을 달성합니다.
- Cross-modal dataset은 다양한 유형의 데이터 (예: 이미지, 음성, 텍스트 등)를 포함하는 데이터셋을 말합니다.
- 이러한 데이터셋은 다중 모달리티(multimodality)를 갖는 작업에 대해 딥러닝 모델을 학습시키는 데 사용됩니다.
- Cross-modal dataset은 일반적으로 크고 다양한 데이터를 포함하며, 다양한 작업에 사용됩니다.
-
또한, 추가 분석 결과 OFA는 보이지 않은 작업 및 도메인으로 효과적으로 전이할 수 있다는 것을 보여줍니다.
-
이 논문에서 사용된 코드와 모델은 https://github.com/OFA-Sys/OFA에서 공개적으로 이용 가능합니다.