본 논문에서는, 복잡한 과제/모달리티별 사용자 정의의 지지구조를 깨기 위해, 다중 모달리티 사전 훈련을 위한 통합 패러다임을 추구합니다.
OFA(Task-Agnostic and Modality-Agnostic)라는 프레임워크를 제안하며, 이는 작업 포괄성(Task Comprehensiveness)을 지원합니다.
OFA는 시각적 지역화, 이미지 생성, 이미지 캡션 생성, 이미지 분류, 언어 모델링 등의 교차 모달리티 및 단일 모달리티 작업을 간단한 시퀀스-시퀀스 학습 프레임워크로 통합합니다.
OFA는 사전 훈련 및 미세 조정 단계에서 지시 기반 학습(instruction-based learning)을 따르며, 하위 작업을 위한 추가 작업별 레이어가 필요하지 않습니다.
최근 대규모 교차 모달리티 데이터셋(Cross-modal datasets)에 의존하는 최첨단 비전 및 언어 모델과 비교해보면, OFA는 공개적으로 이용 가능한 이미지-텍스트 쌍만 2000만 개의 데이터로 사전 훈련되어 있음에도 불구하고
또한, 추가 분석 결과 OFA는 보이지 않은 작업 및 도메인으로 효과적으로 전이할 수 있다는 것을 보여줍니다.
이 논문에서 사용된 코드와 모델은 https://github.com/OFA-Sys/OFA에서 공개적으로 이용 가능합니다.