
Object Hallucination에 대한 survey 논문이 나왔다. Object Hallucination에 대해 알기 위해서 읽어봤다.
이 논문에서 Hallucination 정의

시각정보와 언어정보의 불일치가 일어나는 것
논문의 목차
- Hallucination concept
- benchmarks, methodologies
- 원인
- Hallucination 완화 방식

Hallucination

- Descriptive hallucination
- visual information을 묘사하는 데 실패
- judgement hallucination
- 사람이 주는 query에 대한 response가 실재 visual data와 다를 때
- semantic perspective로는 nonexistent objects, incorrect object attributes, inaccurate object relations로 나눌 수도 있다.
Hallucination evaluation
- Evaluation on Non-Hallucinatory Generation
- Handcrafted pipeline methods: Manual하게 만든 평가방식
- Model-based end-to-end method: Model이 평가하는 방식
- LLM-based evaluation
- hallucination data driven model evaluation
- hallucination dataset으로 hallucination을 detection하는 model을 만든다.
- 예시로 한 논문에서는 M-HalDetect dataset라는 image description으로 InstructBLIP 모델을 학습해서 그것으로 hallucination identification을 한다.

- 위와 같이 Hallucination Discrimination, Non-hallucination generation 이렇게 두가지로 나눠진다.
- Hallucination Discrimination
- object level
- metric가 단순히 accuracy
- Non-hallucination generation
Hallucination 원인

Data
- Data bias
- Yes가 많은 데이터
- data homogeneity
- Annotation Irrelevance
- LLM이 만든 annotation이 이미지와 맞지 않음.
Vision Encoder
- Limited Visual Resolution: 기존 모델들은 computation complexity를 고려해서 작은 resolution의 visual encoder 사용
- Fine-grained Visual Semantics: CLIP은 contrastive learning으로 했기 때문에 salient objects에 집중되어 있음.
Modality Algining
- Connection Module Simplicity: linear layer
- Limited Token Constraints: Q-Former에서 initialized tokens의 개수가 미지 predifined됨.
LLM
- Insufficient context attention: 모델이 context의 일부에만 집중해서 나타나는 현상
- visual feature가 아니라 최근 생성된 단어들에 집중해서 나타남
- flently generate 하기 위해 language pattern에만 집중함
- generated content의 partial summarizing tokens에 집중
- Stochastic sampling decoding
- decoding 과정에 randomness를 줌
- capability misalignment
Mitigation of LVLM Hallucination
- Mitigation for data
- Bias mitigation
- Annotation enrichment
- Mitigating for vision encoder
- scaling-up vision resolution
- perceptual enhancement
- Mitigation for connection module
- connection modules enhancing
- alignment training optimizing
- Mitigation for LLM
- decoding optimization
- Aligning with human(RLHF, Direct Preference Optimization
Future Directions
- Supervision Objective
- Enriching Modalities
- LVLMs as Agent
- Interpretability