













































Hateful Memes Dataset: 혐오 발언 밈(meme)을 분류하는 데이터셋으로, 이미지와 텍스트를 함께 이해해야만 올바르게 판단할 수 있도록 설계되었습니다. 예를 들어, "오늘 날씨 좋네"라는 텍스트가 평화로운 풍경 이미지와 함께 있으면 긍정적이지만, 재난 현장 이미지와 함께 있다면 혐오 표현이 될 수 있습니다.




Winoground Dataset: 두 개의 (이미지, 텍스트) 쌍으로 구성되며, 텍스트는 단어는 같지만 순서만 다릅니다 (예: "전구를 둘러싼 식물들" vs "식물들을 둘러싼 전구"). 이 데이터셋은 모델이 **구성적 이해(compositional understanding)**를 제대로 하는지 측정하며, 현재 SOTA 모델들도 이 문제에서 매우 낮은 성능을 보입니다.












모델의 가중치(weights)를 더 이상 업데이트하지 않도록 고정하는 것을 의미합니다.
특히 거대 언어 모델(LLM)을 얼리는 이유는, LLM이 이미 학습한 방대한 일반 지식을 그대로 보존하면서 특정 태스크에 과적합되는 것을 방지하기 위함입니다.
어떤 방식이 절대적으로 우월하다기보다는 풀어야 할 문제(task)의 특성에 따라 다릅니다.
후기 융합 (예: CLIP)은 각 인코더가 독립적이라 학습이 효율적이고 확장성이 좋습니다.
초기 융합은 두 양식 간의 더 깊고 풍부한 상호작용을 학습해야 하는 복잡한 추론 문제에 더 유리할 수 있습니다.
이미지는 텍스트보다 훨씬 더 많은 정보(더 높은 대역폭)를 담고 있어 복잡하지만, 어느 쪽이 더 학습하기 어렵다고 단정하기는 어렵습니다.
각 모달리티에 대한 스케일링 법칙(scaling laws)이 다를 수 있으며, 이는 아직 활발히 연구 중인 분야입니다.
매우 심각한 편향이 존재합니다. 웹에서 수집한 데이터로 학습하기 때문에, 데이터에 내재된 인종차별, 성차별 등 끔찍한 사회적 편향을 그대로 학습할 수 있습니다.
이는 AI 연구자들이 반드시 해결해야 할 중요한 과제 중 하나입니다.
비디오는 시간적 차원이 추가되어 복잡성이 높습니다.
하나의 접근법은 비디오에서 주요 프레임들을 샘플링하여 이미지 기반 모델처럼 처리하는 것입니다.
또는 객체 추적 기술과 모델의 어텐션 마스크를 시간 축에 따라 정렬하여 동적인 이해를 시도할 수도 있습니다.
이는 많은 멀티모달 모델의 주요 약점 중 하나입니다. 두 가지 양식의 데이터가 모두 존재한다고 가정하고 설계되었기 때문입니다.
이 문제를 해결하기 위해 FLAVA와 같은 모델은 단일 모드 데이터(unimodal data)에 대해서도 강건하게 동작하도록 사전학습 단계부터 고려하여 설계되었습니다.