
Qwen-VL과 비교하여 오디오를 처리할 수 있는 능력이 추가되었고, VITA와는 음성을 포함한 더 나은 멀티모달 성능을 보여줍니다.
GPT-4o의 성능은 다양한 분야에서 활용되지만 여전히 오픈 소스에서는 대안이 부족한 상황입니다.
본 논문에서는 이미지, 비디오, 오디오, 텍스트 등 다양한 모달리티를 동시에 처리하고 분석하는데 능숙하여 강력한 성능을 제공하는 오픈소스 7B MLLM(Multimodal Large Language Model) Baichuan-Omni를 소개합니다.
2단계의 멀티모달 학습 방식을 제안합니다.
해당 방식은 언어 모델이 시각 및 음성 데이터를 효과적으로 처리할 수 있는 능력을 갖추도록 합니다.
다양한 벤치마크에서 강력한 성능을 입증하였습니다.
멀티모달의 발전은 다양한 응용 분야에서 중요한 역할을 하는 것을 확인했습니다.
하지만 멀티모달의 발전에도 불구하고 오픈소스 모델은 눈에 띄는 한계를 드러내고 있습니다.
이러한 문제를 해결하기 위해 멀티모달 처리와 자연스러운 상호작용을 처리하기 위해 설계된 멀티모달 학습 체계를 갖춘 옴니모달 LLM인 Baichuan-Omni를 소개합니다.
Baichuan-Omni는 크게 3가지 핵심 요소로 구성됩니다.
Baichuan-Omni는 크게 3가지 기여를 합니다.
옴니(omni-)는 사전적으로 모든 것, 모든 방식을 의미합니다!!
LLM의 발전은 AI 분야에 변화를 가져왔고 MLLM의 등장을 유도했습니다.
AI는 텍스트를 넘어 이미지, 오디오, 비디오와 같은 다양한 모달리티에 걸쳐 이해하고 생성할 수 있게 하였습니다.
다양한 오픈 소스 모델들은 방대한 텍스트 데이터를 기반으로 자연어 처리 작업에 강점을 보입니다.
Vision-Language Models (VLMs)은 시각 이해를 통한 다양한 작업 처리에 강점을 보입니다.
하지만 GPT-4o와 비교하여 오픈소스 모델들은 여전히 멀티모달 상호작용 기능에서 상당한 격차를 보이며 다양한 모달리티 간의 포괄적인 상호작용을 효과적으로 지원하는 오픈소스 모델들은 굉장히 부족한 상태입니다.
이러한 문제를 해결하기 위해 다양한 모달리티 간의 상호작용을 동시에 제공하는 능력을 가진 Baichuan-Omni를 제안합니다.


Visual encoder를 이용하여 이미지, 비디오를 토큰화하고 오디오 인코더를 이용하여 음성, 토크나이저를 이용하여 텍스트를 토큰화하여 LLM이 이해할 수 있는 형태의 아키텍쳐입니다.
다양한 모달리티를 지원하기 위해 고품질의 광범위한 교차 모달 데이터셋을 구축했습니다.
이미지 데이터: 캡션, 교차 이미지-텍스트, OCR 데이터, 차트 데이터등 여러 유형으로 분류됩니다. 오픈소스 데이터와 합성 데이터로 나눌 수 있습니다.
비디오 데이터: 비디오 데이터셋은 비디오 분류, 동작 인식, 시간적 위치 지정 등 여러 작업을 포함하는 다양한 공개 리소스로 구성됩니다.
오디오 데이터: 오디오 데이터는 다양한 환경, 언어, 악센트, 화자를 포함하는 여러 매체에서 추출됩니다.
텍스트 데이터: 웹 페이지, 책, 학술 논문, 코드 등 다양한 도메인에서 데이터를 수집됩니다.
Cross-modal interaction 데이터: 모델의 교차 모달 상호작용 능력을 강화하기 위해, 이미지-오디오-텍스트 및 비디오-오디오-텍스트 데이터셋을 구축했습니다.
이미지-언어, 비디오-언어, 오디오-언어의 사전 학습과 alignment 과정을 자세히 설명합니다.
이미지 인코더는 Siglip-384px을 사용합니다.
384384 크기의 이미지를 처리하고 2 layer MLP와 22 convolution layer로 구성된 프로젝터를 통해 182개의 토큰을 생성합니다.
convolution layer는 pooling layer의 역할을 합니다.
고해상도 이미지의 세부 정보를 유지하면서 입력 이미지의 임의의 해상도로 확장하기 위해 AnyRes 선택합니다.
이미지-언어 브랜치의 학습 과정은 세 단계로 나뉩니다.
이미지 캡셔닝 작업을 통해 이미지 표현과 텍스트 사이의 초기 정렬을 설정하기 위해 visual projector를 훈련합니다.
LLM을 고정하고 시각 프로젝터와 시각 인코더를 더 작은 학습률인 1e−5로 함께 훈련합니다.
LLM의 고정을 해제하고 모든 모델 구성 요소의 매개변수를 학습률 1e−5로 업데이트하여 시각-언어 성능을 더욱 향상합니다.
이미지-언어 브랜치의 사전 학습을 통해 획득한 시각적 능력 + frozen visual encdoer를 사용하여 비디오 프로젝터를 훈련합니다.
학습 단계:
두 단계에 걸친 훈련
비디오-언어 브랜치의 사전 학습을 비디오-텍스트 페어만으로 바로 진행하지 않고 2단계 접근법을 채택했습니다.
위와 같은 전략으로 구성하여 학습하는 것이 더 나은 성능을 제공하는 것으로 입증되었습니다.

오디오-언어 브랜치는 시각 및 비디오 데이터로 사전 훈련된 LLM을 확장하여 Whisper-large-v3 모델의 오디오 인코더와 새롭게 도입된 오디오 프로젝터를 포함합니다.
오디오 인코더 및 프로젝터
Conv-GMLP(Convolutional-Gated MLP)
다양한 작업에서 복잡한 멀티모달 지시를 수행하는 모델의 능력을 향상시키기 위한 멀티모달 지도 학습 과정을 수행했습니다.
텍스트, 오디오, 이미지-텍스트, 비디오-텍스트, 이미지-오디오 등 여러 모달리티를 아우르는 200개 이상의 작업과 약 60만 개의 데이터 쌍을 포함하는 오픈소스, 합성 데이터, 내부 데이터를 활용했습니다.



대부분의 벤치마크 성능에서 오픈 소스 모델과 비교하여 높은 성능을 확인할 수 있습니다.
GPT 성능이 오히려 너무 높아 눈에 덜 띄는 경향이 있습니다
Baichuan-Omni를 제안하고 이로서 진정한 Omni모달 LLM 오픈 소스 개발을 향한 첫걸음을 제시했습니다.
고품질 데이터를 활요하여 모델의 사전학습과 미세조정을 통해 멀티모달 전반에 걸쳐 최고 수준의 성과를 달성했습니다.
개선이 필요한 영역