OFA(One For All)

FSA·2023년 4월 25일
0

Large Language model

목록 보기
6/11

github 설명

  • https://github.com/OFA-Sys/OFA
  • OFA는 통합된 시퀀스-시퀀스 사전 훈련 모델로, 영어와 중국어를 지원합니다.
  • 이 모델은 다양한 modalities (교차 모달리티, 비전, 언어)와 tasks (finetuning and prompt tuning are supported)을 통합하며,
    • 이미지 캡션 생성( MSCOCO 리더보드 1위),
    • VQA,
    • Visual grounding
      • Visual grounding은 컴퓨터 비전과 자연어 처리를 결합하여,
      • 이미지나 비디오에서 추출된 정보를 이용하여 자연어로 된 질문에 대한 답변을 생성하는 딥러닝 기술입니다.
      • 이 기술은 이미지나 비디오에서 답변을 찾기 위해 해당 답변과 연결되는 시각적인 객체나 지역을 찾아내는 것을 목표로 합니다.
      • Visual grounding은 이미지나 비디오에서 추출된 정보를 이용하여 답변을 생성하는 VQA와 유사하지만,
      • VQA는 질문에 대한 답변을 생성하는 것에 비해, Visual grounding은 이미지나 비디오에서 답변과 관련된 시각적인 객체나 지역을 찾아내는 것이 목적입니다.
      • 예를 들어, "사과 위에는 무엇이 있나요?"라는 질문이 있다면, Visual grounding은 이미지에서 사과를 찾아내고, 사과 위에 위치한 객체를 찾아내어 이를 답변으로 제시할 수 있습니다.
    • 텍스트-이미지 생성,
    • 텍스트 분류,
    • 텍스트 생성,
    • 이미지 분류 등의 작업을 수행할 수 있습니다.
  • 이 프로젝트는 사전 훈련 및 미세 조정을 위한 단계별 지침과 해당 체크포인트를 제공합니다
    • (공식 ckpt [EN|CN] 또는 Hugging Face ckpt를 확인하세요).

abstract

  • 본 논문에서는, 복잡한 과제/모달리티별 사용자 정의의 지지구조를 깨기 위해, 다중 모달리티 사전 훈련을 위한 통합 패러다임을 추구합니다.

  • OFA(Task-Agnostic and Modality-Agnostic)라는 프레임워크를 제안하며, 이는 작업 포괄성(Task Comprehensiveness)을 지원합니다.

  • OFA는 시각적 지역화, 이미지 생성, 이미지 캡션 생성, 이미지 분류, 언어 모델링 등의 교차 모달리티 및 단일 모달리티 작업을 간단한 시퀀스-시퀀스 학습 프레임워크로 통합합니다.

  • OFA는 사전 훈련 및 미세 조정 단계에서 지시 기반 학습(instruction-based learning)을 따르며, 하위 작업을 위한 추가 작업별 레이어가 필요하지 않습니다.

    • 지시 기반 학습(Instruction-based learning)은 모델이 각 작업에 대한 명시적인 지시사항을 제공받고 이를 바탕으로 학습하는 방식입니다.
    • 이 방법은 명확한 지시사항을 제공함으로써 모델이 특정 작업을 수행하기 위해 필요한 지식과 특성을 빠르게 습득할 수 있게 됩니다.
    • 예를 들어, 이미지 캡셔닝 작업을 수행하는 경우, 지시 사항은 "주어진 이미지에 대해 설명하는 문장 생성"입니다.
    • 이러한 명확한 지시 사항을 제공하면, 모델은 이러한 작업을 수행하기 위해 이미지와 자연어 처리 기술을 연계하여 사용할 수 있는 특정 지식을 학습할 수 있습니다.
    • 이러한 지시 기반 학습 방식은 모델이 여러 작업에 대해 빠르게 학습하고 다양한 작업에 적응할 수 있도록 도와주는 데에 유용합니다.
  • 최근 대규모 교차 모달리티 데이터셋(Cross-modal datasets)에 의존하는 최첨단 비전 및 언어 모델과 비교해보면, OFA는 공개적으로 이용 가능한 이미지-텍스트 쌍만 2000만 개의 데이터로 사전 훈련되어 있음에도 불구하고

    • 교차 모달리티 작업에서 새로운 최고 성능을 달성하면서 단일 모달리티 작업에서 매우 경쟁력 있는 성능을 달성합니다.
      • Cross-modal dataset은 다양한 유형의 데이터 (예: 이미지, 음성, 텍스트 등)를 포함하는 데이터셋을 말합니다.
      • 이러한 데이터셋은 다중 모달리티(multimodality)를 갖는 작업에 대해 딥러닝 모델을 학습시키는 데 사용됩니다.
      • Cross-modal dataset은 일반적으로 크고 다양한 데이터를 포함하며, 다양한 작업에 사용됩니다.
  • 또한, 추가 분석 결과 OFA는 보이지 않은 작업 및 도메인으로 효과적으로 전이할 수 있다는 것을 보여줍니다.

  • 이 논문에서 사용된 코드와 모델은 https://github.com/OFA-Sys/OFA에서 공개적으로 이용 가능합니다.

profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글