AutoHallusion
Updated 9th. Oct. 2024
이 논문은 Large Vision-Language Models(LVLMs)에서 발생하는 Hallucination 문제를 해결하기 위한 자동화된 벤치마크 생성 방법인 AUTOHALLUSION을 제시한다.
Hallucination 문제 : LVLMs의 이미지 속 특정 맥락적 단서로 인해 비정상적이거나 가상적인 객체에 대해 과신하고 부정확한 추론을 생성하는 경향
기존 벤치마크의 한계 : 기존 LVLM hallucination 조사 벤치마크는 수작업으로 만들어진 코너 케이스에 의존하며, 이들의 실패 패턴이 일반화 되지 않을 수있음. 또한, 이러한 예제에 대한 fine-tuning은 벤치마크의 유효성을 저해할 가능성 존재.
Fine-tuing의 유효성 저해 : 벤치마크에 사용된 예시들을 활용하여 fine-tuning하면, 해당 벤치마크에서는 성능이 향상.
- 문제점 : 모델이 벤치마크에 overfitting되어, 실제 hallucination문제를 해결하는 것이 아니라, 특정 벤치마크에만 잘 작동하도록 학습될 수 있다.
AutoHallusion Open Source : https://github.com/wuxiyang1996/AutoHallusion
LVLM의 발전과 그 한계점
LVLM은 콘텐츠 생성, 자율 주행, 로보틱스 등 다양한 분야에서 강력한 도구로 활용되고 있다. 하지만, LVLM이 생성하는 응답이 시각적 콘텐츠에 없는 정보를 포함하는 Hallucination 현상이 발생하여 LVLM의 적용에 제약을 주고 있다. hallucination은 LVLM이 시각적 입력보다는 언어 모듈의 강력한 사전 지식에 과도하게 의존할때 발생하게 된다.
따라서, Hallucination 사례를 수집하고 원인을 조사하는것이 매우 중요하다. 충분한 Hallucination 예제를 통해 LVLM을 fine-tuning하면 hallucination을 줄이고 편향을 완화 할 수 있다.
이러한 문제점을 해결하기 위해, 자동화된 파이프라인인 AutoHallusion은... :
해당 논문에서는 AutoHallusion에 의해 생성된 벤치마크에서 GPT-4Vision, Gemini Pro Vision, Claude 3 및 LLaVA-1.5 모델들을 평가하여, 합성데이터와 실제 데이터에서 LVLM 환각을 유도하는데 각 97.7%와 98.7%의 성공률을 달성하였고, 모델 성능을 더 평가하기 위해 벤치마크 데이터셋을 마련하였다.
이러한 모델들은 시각적, 언어적 정보를 결합하여 텍스트와 이미지 입력을 처리하고 텍스트 출력을 생성하는데 이용된다.
이전 논문 HallusionVench 는 455개의 시각 질문 제어 쌍으로 시각적 상식과 추론을 목표로 하지만, AutoHallusion은 맥락적 영향을 통해 환각 사례를 합성하기 위한 자동 생성 접근 방식을 사용하여 우리 방법의 효과성과 확장성을 높인다. 또한, 환각을 유발하는 언어우선순위의 맥락적 편향을 조사하고 더 효과적인 탐지를 위해 두가지 새로운 메트릭을 도입한다.
상관관계가 있지만 이미지에는 존재하지 않는 것들을 찾아 LvLM에 서 환각을 유도한다.
ƒLVLM(Image,query) : image-query를 쌍으로 입력
ƒLLM(context, query) : 텍스트 전용 context-query 쌍으로 입력

function(1) :
function(2) : 피해자 언어모델 LVLM의 언어구성요소 ƒLLM의 bias를 조사하기 위해 사용. 시각 입력이 잇을때와 업을때의 응답간의 불일치를 허용오차 ⋴내에서 조절.
주목할 점은 언어 구성 요소 ƒLLM가 제약 조건 Q ∩ C = Ø을 갖는 것이 중요하다는 것

환각 사례를 생성하는 자동화된 절차 4단계 파이프라인
장면 생성의 목표는 hallucination을 유도하기 쉽도록 강력한 context를 가진 장면 이미지(C)를 생성하여 bias(편향)을 추출하는 것이다.
이미지 조작의 목표는 장면이 이미지 ls 내의 객체들을 조작하여 LVLM의 hallucination을 유도하는 (image, question) pair를 생성하는 것이다.
해당 과정을 통해 생성된 이미지와 질문 쌍은 LVLM이 시각정 정보보다는 언어적 선입견에 의존하도록 유도하여 hallucination을 일으키게 된다. AutoHallusion은 세가지 주요 전략인 abnormal object insertion, paired object insertion, correlated object removal을 사용하여 이미지 내 객체들을 조작한다.
이미지에 존재하는 맥락과 관련 없는 객체를 삽입하여 hallucination을 유도한다.
예 : 사무실 이미지에 냄비를 삽입
이 전략은 인간의 인지적 schema를 활용하여 LVLM이 시각적 정보를 무시하고 언어적 선입견에 의존하도록 유도한다.


LVLM이 강력한 연관성을 가진 짝을 이루는 객체들을 식별하도록 한다.
예 : 커피 메이커와 커피 원두처럼 함께 자주 등장하는 객체 쌍을 활용.
해당 전략은 짝을 이루는 두 객체 중 하나만 이미지에 삽입하고, 나머지 한객체에 대한 질문을 던진다. 즉, 커피메이커가 있는 이미지에 커피 원두에대한 질문을 하는 방식이다.
이 전략의 목표는 언어 모델이 특정 객체 쌍에 대한 사전 지식에 의존하게 만들어, 시각적 입력이 불완전할 때 Hallucination을 유도하는 것이다. 이 전략을 통해 모델이 이미지에 없는 객체에 대해 잘못된 추론을 하도록 유도하여 Hallucination 현상을 효과적으로 분석할 수 있다.


생성된 이미지에서 기존 객체를 제거하는 전략.
제거된 이미지는 이미지 내 다른 요소들과 높은 상관 관계를 가진다.
예 : 식탁위의 와인잔, 와인 병, 스테이크가 잇는 이미지가 있을 때 와인병을 제거하는 경우. -> 와인병은 와인잔, 스테이크와 시각적, 의미적으로 관련이 깊다.
이미지 내에서 여러 요소와 관련성이 높은 객체를 제거 하여 시각적 정보와 언어모델의 사전 정보간의 불일치를 유도하여 hallucination을 발생시킨다.

구체적인 방법 :
Adversary Object (q*) 선택 기준:

크게 두가지의 질문유형인 객체의 존재여부와 객체 간의 공간적 관계를 고려한다.
이미지 내 특정 객체(q*)의 존재 여부를 묻는다.
프롬프트에 다양한 수준의 세부 정보를 추가하여 질문을 반복한다. 예를들어, 모델에게 이미지 캡션을 생성하도록 요청하고, 이 텍스트를 질문 앞에 추가하여 언어적 맥락을 강화한다.
모델이 이미지 캡션에서 누락한 객체에 대한 존재 여부 질문을 던져, 모델이 해당 객체를 다시 누락할 가능성을 높인다.
객체와 장면 내 다른 객체 간의 상대적 위치 관계를 묻는다.
객체의 bounding box 정보를 활용하여, "left", "right", "above", "below", "front"와 같은 공간 관계를 파악한다.
bounding box가 겹치는 경우, 가장 높은 confidence score를 가진 bounding box만 유지하여 중복 문제를 해결한다.
다양한 수준의 맥락 정보를 질문에 포함한다. 예를들어, 추가 정보 없이 기본적인 질문을 하거나 객체 수준의 설명을 추가하거나, 전체 이미지에 대한 자세한 캡션을 제공할 수 있다.
해당 논문에서는 GPT-4V-Turbo 를 활용하여 autohallusion 프레임워크에서 hallucination을 감지한다.
Hallucination 발생 여부를 판단하기 위해서는 정확성(Correctness)과 일관성(Consistency)의 기준을 사용한다
이미지 내 객체의 실제 존재 여부 및 관계에 대한 ground truth를 기반으로 시각적 질문-답변 쌍(visual question pairs)의 정확성을 판단한다.

예 : 이미지에 없는 객체가 있다고 답변하면 hallucination 으로 간주
모델이 생성한 답변의 일관성을 평가한다. ground truth의 정확성에 의존하지 않고 모델 자체가 모순된 답변을 내놓는 경우 hallucination으로 판단한다.

AutoHallusion의 구현에 대한 구체적인 설정과 데이터 준비, 사용된 모델, 실험 환경
논문 저자들은 LVLM을 사용하여 생성된 이미지-질문-정답 benchmark 평가 결과를 수동으로 검토하였고, 성공적인 케이스 중 92.6% 가 정확하게 평가되었다.
해당 논문에서는 Dalle-E 3를 사용하여 장면 이미지와 객체 이미지를 생성하거나, 기존 데이터 세트를 활용하였다.
ARS의 전반적인 성공률
주요 관찰된 내용
Ablation Study를 진행하여 AUTOHALLUSION의 효과를 분석
GPT-4V-Turbo를 사용하여 객체크기를 100X100 ~ 400X400 까지 다양하게 변경하며 실험한 결과
: 객체가 클수록 hallucination이 줄어듬.
: 이는 이미지 조작 및 응답 충돌(response conflicts)로 인한 hallucination 모두에 해당
LVLM이 작은 이미지를 토큰화하는데 어려움을 겪음 : However, 이것은 작은 이미지를 토큰화하는데 어려움을 겪기 때문이지 hallucination은 아니라 분석함.
따라서,일반적으로 200X200 픽셀 사용
객체 프롬프트 & VQA 정렬
논문에서는 같은 LVLM 모델을 아래 둘다에 사용하였다.
이렇게 하면 모델이 자기 자신이 만든 편향된 정보에 영향을 받아 hallucination 가능성이 더 높아졌다(자기합리화 현상처럼).
GPT-4V-Turbo는 정확성 환각에 더 강하고 Gemini는 일관된 환각에 더 강하다는 것을 보여줌.
객체-장면 정렬

GPT-4V-Turbo를 사용한 객체 삽입 실험에서 다양한 객체 검색 정책의 결과를 제시.

객체 검색 및 삽입 전략이 LVLM의 이미지에서 변형된 객체를 식별하는 능력에 주로 영향을 미치기 때문에 비정상 객체 삽입은 LVLM의 인지 장애를 더 쉽게 유발하여 높은 MASR 값으로 반영된다.
반면, VLM은 변형된 객체가 이미지와 맥락적으로 정렬될 때 더 정확한 예측을 할 가능성이 높아져서 MASR 값이 낮아지게 된다.
실험 데이터 : AUTOHALLUSION 프레임워크를 통해 생성된 다양한 hallucination 사례들을 활용
수동 검토 : 생성된 데이터에 대해 철저한 수동 검토 과정을 거쳐 데이터의 품질을 확보
다양한 전략
- 세 가지 주요 hallucination 생성 전략
: abnormal object insertion, paired object insertion, correlated object removal을 모두 활용
합성 및 실제 이미지
- 인공적으로 합성된 이미지와 실제 이미지를 모두 포함
: 이를 통해 모델이 다양한 유형의 시각적 입력에 대해 얼마나 robust한지 평가
벤치마크 평가 : 구축된 벤치마크를 사용하여 다양한 SOTA LVLM들의 성능을 평가
해당 논문에서는 인지 과학의 schema 개념에서 영감을 받아, LVLM (Large Vision-Language Models)에서 hallucination이 발생하는 시점과 메커니즘을 분석한다. Schema는 인간 인지구조의 기본 틀을 의미하며, 이를 통해 lVLM의 hallucination을 이해하고자한다.
또한, LVLM의 언어적 사전지식을 활용하여 hallucination을 유도하는 이미지를 역설계한다.
이를 위해서 비정상 객체 삽입(Abnormal object insertion), 쌍을 이루는 객체 삽입(Paired object insertion), 연관 객체 제거(correlated object removal)라는 세가지 주요전략을 사용하여 이미지 내 객체를 조작하고, LVLM의 사전 지식과 충돌을 일으키도록 설계되었다.
텍스트기반 탐색 방법(textual probing mothods)을 개발하여 생성된 hallucinatino을 식별하고 탐지한다.
AutoHallusion은 합성 데이터와 실제 데이터를 모두 사용하여 LVLM에서 hallucination을 성공적으로 유도하는 높은 성공률을 달성하였다.





