A Survey on Hallucination in Large Vision-Language Models

Kim YeonJu·2024년 2월 10일

LVLM Large Vision-Language Model MLLM hallucination survey

paper reading

목록 보기

1/1

Object Hallucination에 대한 survey 논문이 나왔다. Object Hallucination에 대해 알기 위해서 읽어봤다.

이 논문에서 Hallucination 정의

시각정보와 언어정보의 불일치가 일어나는 것

논문의 목차

Hallucination concept
benchmarks, methodologies
원인
Hallucination 완화 방식

Hallucination

Descriptive hallucination
- visual information을 묘사하는 데 실패
judgement hallucination
- 사람이 주는 query에 대한 response가 실재 visual data와 다를 때
semantic perspective로는 nonexistent objects, incorrect object attributes, inaccurate object relations로 나눌 수도 있다.

Hallucination evaluation

Evaluation on Non-Hallucinatory Generation
- Handcrafted pipeline methods: Manual하게 만든 평가방식
  - CHAIR
  - CCEval
  - FAITH-SCORE
- Model-based end-to-end method: Model이 평가하는 방식
  - LLM-based evaluation
  - hallucination data driven model evaluation
    - hallucination dataset으로 hallucination을 detection하는 model을 만든다.
    - 예시로 한 논문에서는 M-HalDetect dataset라는 image description으로 InstructBLIP 모델을 학습해서 그것으로 hallucination identification을 한다.

위와 같이 Hallucination Discrimination, Non-hallucination generation 이렇게 두가지로 나눠진다.
Hallucination Discrimination
- object level
- metric가 단순히 accuracy
Non-hallucination generation

Hallucination 원인

Data

Data bias
- Yes가 많은 데이터
- data homogeneity
Annotation Irrelevance
- LLM이 만든 annotation이 이미지와 맞지 않음.

Vision Encoder

Limited Visual Resolution: 기존 모델들은 computation complexity를 고려해서 작은 resolution의 visual encoder 사용
Fine-grained Visual Semantics: CLIP은 contrastive learning으로 했기 때문에 salient objects에 집중되어 있음.

Modality Algining

Connection Module Simplicity: linear layer
Limited Token Constraints: Q-Former에서 initialized tokens의 개수가 미지 predifined됨.

LLM

Insufficient context attention: 모델이 context의 일부에만 집중해서 나타나는 현상
- visual feature가 아니라 최근 생성된 단어들에 집중해서 나타남
- flently generate 하기 위해 language pattern에만 집중함
- generated content의 partial summarizing tokens에 집중
Stochastic sampling decoding
- decoding 과정에 randomness를 줌
capability misalignment

Mitigation of LVLM Hallucination

Mitigation for data
- Bias mitigation
- Annotation enrichment
Mitigating for vision encoder
- scaling-up vision resolution
- perceptual enhancement
Mitigation for connection module
- connection modules enhancing
- alignment training optimizing
Mitigation for LLM
- decoding optimization
- Aligning with human(RLHF, Direct Preference Optimization

Future Directions

Supervision Objective
Enriching Modalities
LVLMs as Agent
Interpretability

0개의 댓글