A Survey on Hallucination in Large Vision-Language Models

Kim YeonJu·2024년 2월 10일

paper reading

목록 보기
1/1

Object Hallucination에 대한 survey 논문이 나왔다. Object Hallucination에 대해 알기 위해서 읽어봤다.

이 논문에서 Hallucination 정의

시각정보와 언어정보의 불일치가 일어나는 것

논문의 목차

  1. Hallucination concept
  2. benchmarks, methodologies
  3. 원인
  4. Hallucination 완화 방식

Hallucination

  • Descriptive hallucination
    • visual information을 묘사하는 데 실패
  • judgement hallucination
    • 사람이 주는 query에 대한 response가 실재 visual data와 다를 때
  • semantic perspective로는 nonexistent objects, incorrect object attributes, inaccurate object relations로 나눌 수도 있다.

Hallucination evaluation

  • Evaluation on Non-Hallucinatory Generation
    • Handcrafted pipeline methods: Manual하게 만든 평가방식
      • CHAIR
      • CCEval
      • FAITH-SCORE
    • Model-based end-to-end method: Model이 평가하는 방식
      • LLM-based evaluation
      • hallucination data driven model evaluation
        • hallucination dataset으로 hallucination을 detection하는 model을 만든다.
        • 예시로 한 논문에서는 M-HalDetect dataset라는 image description으로 InstructBLIP 모델을 학습해서 그것으로 hallucination identification을 한다.

  • 위와 같이 Hallucination Discrimination, Non-hallucination generation 이렇게 두가지로 나눠진다.
  • Hallucination Discrimination
    • object level
    • metric가 단순히 accuracy
  • Non-hallucination generation

Hallucination 원인

Data

  • Data bias
    • Yes가 많은 데이터
    • data homogeneity
  • Annotation Irrelevance
    • LLM이 만든 annotation이 이미지와 맞지 않음.

Vision Encoder

  • Limited Visual Resolution: 기존 모델들은 computation complexity를 고려해서 작은 resolution의 visual encoder 사용
  • Fine-grained Visual Semantics: CLIP은 contrastive learning으로 했기 때문에 salient objects에 집중되어 있음.

Modality Algining

  • Connection Module Simplicity: linear layer
  • Limited Token Constraints: Q-Former에서 initialized tokens의 개수가 미지 predifined됨.

LLM

  • Insufficient context attention: 모델이 context의 일부에만 집중해서 나타나는 현상
    • visual feature가 아니라 최근 생성된 단어들에 집중해서 나타남
    • flently generate 하기 위해 language pattern에만 집중함
    • generated content의 partial summarizing tokens에 집중
  • Stochastic sampling decoding
    • decoding 과정에 randomness를 줌
  • capability misalignment

Mitigation of LVLM Hallucination

  • Mitigation for data
    • Bias mitigation
    • Annotation enrichment
  • Mitigating for vision encoder
    • scaling-up vision resolution
    • perceptual enhancement
  • Mitigation for connection module
    • connection modules enhancing
    • alignment training optimizing
  • Mitigation for LLM
    • decoding optimization
    • Aligning with human(RLHF, Direct Preference Optimization

Future Directions

  • Supervision Objective
  • Enriching Modalities
  • LVLMs as Agent
  • Interpretability

0개의 댓글