[논문리뷰] HELPD: Mitigating Hallucination of LVLMs by Hierarchical FeedbackLearning with Vision-enhanced Penalty Decoding

jy.Hyun·2024년 11월 13일

AI HELPD LVLM_hallucination hierarchical_feedback_learning large_vision_language_model vision_enhanced_penalty_decoding 계층적_피드백_학습 대규모_비전_언어_모델 시각_페널티_디코딩 환각_문제_완화

논문리뷰

목록 보기

4/5

HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding

0. Abstraction

(Bai et al. 2024)

LVLM(Large Vision-Language Model)은 다양한 Vision-Language 작업에서 뛰어난 성능을 보이지만, 여전히 Multimodal 환각(Hallucination) 문제에 직면해 있다. 이 논문은 Lose Visual Attention 문제와 객체와 의미 간 연관성 연결 문제를 해결하고자 Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding (HELPD) 기법을 제안했다. HELPD는 적은 훈련으로도 15% 이상의 환각 완화 효과를 제공하며, 생성 텍스트에 과도하게 의존하지 않고 이미지 Attention Window를 활용해 출력 로짓(logits)에 페널티를 부여하여 텍스트 중심의 환각을 줄이는 데 도움을 준다. HELPD는 다양한 LVLM에 쉽게 적용될 수 있으며, 여러 환각 평가 벤치마크에서 좋은 성능을 보였다.

1. Introduction

최근 다양한 작업에서 LVLM(대규모 비전 언어 모델)은 우수한 성과를 나타내지만, 여전히 환각 현상이 중요한 문제로 지적되고 있다. 이러한 환각 현상을 완화하기 위해 여러 연구에서 다양한 접근이 시도되어 왔다.

CoVe(Dhuliawala et al., 2023)는 Chain-of-Verification 방법을 제안하였는데, 이는 먼저 검증 질문을 생성한 후, 이를 실행하여 환각 여부를 확인하고 최종적으로 수정된 응답을 얻는 방식이다. 또한, (O’Brien and Lewis, 2023; Chuang et al., 2023; Huang et al., 2023) 등의 연구에서는 디코딩 전략의 개선을 통해 환각을 완화하려는 시도가 이루어졌다.

그러나 이러한 기존 접근법들은 주로 객체 수준의 환각에만 초점을 맞추고 있어, 전체 문장의 의미와 객체 간의 연관성을 충분히 고려하지 못하는 한계가 있다.

Figure 1

500
빨간색으로 표시된 "tree"는 실제 환각이다. 하지만 객체의 존재만 고려하면 "predators"와 "foods"도 환각의로 정의될 수 있다. 하지만 맥락과 의미를 결합했을 때 이러한 정의는 부적절하다고 여겨진다.

Figure 2

500
500
(Huang et al. 2023)

위 그림에서 초록색 박스로 표시된 부분은 특정 생성된 토큰이 과도한 Attention을 받음으로써 이후 생성되는 토큰이 이미지와의 일치를 벗어나는 "Over-Trust" 현상(Huang et al. 2023)을 나타낸다.

저자들은 초기에는 입력된 시각적 정보에 대한 집중 부족이 이러한 현상의 원인일 수 있다고 가정하였다. 그러나 추가적으로 Attention Matrix를 분석한 결과, 빨간색 박스로 표시된 부분에서 시각적 입력에 강한 집중이 이루어지고 있음을 발견하였다. 이는 over-trust 페널티를 고려하는 것이 텍스트의 영향만 설명한다는 것을 나타내며, 따라서 이를 균형 잡기 위해 이미지에 대한 추가적인 집중(이미지와 텍스트 간의 관계)할 필요가 있다는 결론에 도달했다.

이러한 관찰을 바탕으로, 저자들은 HELPD라는 새로운 LVLM 프레임워크를 제안한다. 이 프레임워크는 Vision-enhanced Penalty Decoding과 Hierarchical Feedback Learning을 결합하여 환각 문제를 해결하고자 한다.

연구 질문

결론적으로, 본 논문은 LVLM의 환각 문제를 객체 수준과 문장 수준의 피드백을 결합한 새로운 프레임워크를 통해, 모델이 시각적 입력에 더욱 집중하도록 유도하여 효과적으로 완화할 수 있는 방법을 탐구하고자 한다.

기여

객체 수준 및 문장 수준의 환각 피드백을 통합한 계층적 피드백 학습 방법을 제안한다. 이는 최소한의 훈련만으로도 환각 발생을 효과적으로 완화할 수 있다.
디코딩 과정에서 Attention Matrix 분석을 통해 이미지가 생성 과정에 미치는 영향을 강화하기 위한 Vision-enhanced Penalty Decoding 기법을 도입한다.
광범위한 실험을 통해, 제안된 프레임워크가 여러 환각 지표에서 우수한 성능을 보임으로써 LVLM의 환각 문제를 효과적으로 완화할 수 있음을 입증한다.

2. Method

2.1 Hierarchical Feedback Learning & Figure 3

논문은 Introduction에서 언급한 바와 같이, 모델의 환각 방지 능력을 향상시키기 위해 다양한 수준의 피드백을 제공하는 Hierarchical Feedback Learning 방법을 제안한다. 이 방법은 의미적으로 합리적인 연관성을 가진 출력을 얻기 위해 환각 감지 피드백을 활용하여 모델을 학습시키는 방식이다.

이 학습 방법은 추가적인 훈련을 최소화하면서도 훈련 과정의 후반부에 적용되며, LVLMs을 효과적으로 보완한다.

구체적으로, 일정 훈련 단계마다 모델의 출력 로짓을 샘플링하여 액션 $A$ 를 얻는다. 그런 다음 NLTK2와 GPT-4를 사용하여 샘플링된 문장과 정답 문장에서 객체를 추출하고, 이를 통해 샘플링된 객체 집합 $S_{sam}$ 과 정답 객체 집합 $S_{lab}$ 을 도출한다.

이후, 두 집합 간의 F1 점수를 계산하여 객체 수준 피드백 점수 $R_{obj}$ 를 구한다.

$Precision = \frac{|S_{sam} \cap S_{lab}|}{|S_{sam} \cap S_{lab}| + |S_{sam} \setminus S_{lab}|}$ (1)
$Recall = \frac{|S_{sam} \cap S_{lab}|}{|S_{sam} \cap S_{lab}| + |S_{lab} \setminus S_{sam}|}$ (2)
$R_{obj} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$ (3)

문장 수준 피드백은 GPT-4의 few-shot inference를 통해 얻으며, 이때 0에서 1 사이의 점수를 $R_{sen}$ 으로 정의한다.

이때, $R_{sen}$ 과 $R_{obj}$ 은 미분 불가능하므로, 훈련에 통합하기 위해 강화 학습 알고리즘이 도입된다. 구체적으로, 샘플링된 토큰을 기반으로 원래 로짓에서 로그 확률을 추출한다.
$P_{i,j} = \log \frac{e^{\text{logit}_{i,j,A_{i,j}}}}{\sum_{k=1}^{V} e^{\text{logit}_{i,j,k}}}$ (4)
여기서 $i$ 는 배치 내 인덱스, $j$ 는 시퀀스 길이 내 인덱스, $A_{i,j}$ 는 샘플링된 액션을 의미하며, $k$ 는 어휘 크기 $V$ 내의 인덱스이다.

두 가지 피드백 유형의 상대적 중요도를 결정하기 위해 하이퍼파라미터 $\sigma$ 를 설정한다.
$R_i = \sigma R_{sen,i} + (1 - \sigma) R_{obj,i}$ (5)

그런 다음, 피드백과 해당 액션의 로그 확률을 곱해 합산하여 Negative Weighted Log-Likelihood Loss를 계산한다. 이는 Negative Log-Likelihood Loss에 예측 중요도에 따른 가중치를 부여하여 손실을 조정하는 방식이다.
$L_{RL} = -\frac{1}{N} \sum_{i=1}^{b} \sum_{j=1}^{t} P_{ij} \cdot R_i$ (6)

훈련 단계가 $c \times \text{총 단계}$ 에 도달하면, $L_{RL}$ 이 총 손실에 추가된다.

L_{CE} = -\sum_{h=1}^{H} \log P(x_h | x_{<h}) \ (7)

L = \begin{cases} L_{CE}, & \text{단계} < c \times \text{총 단계} \\ \frac{L_{CE}}{\|L_{CE}\|} + \frac{L_{RL}}{\|L_{RL}\|}, & \text{그 외} \end{cases} \ (8)

여기서 $x$ 는 생성된 토큰을 의미한다.

2.2 Vision-enhanced Penalty Decoding & Figure 4

저자는 Attention Matrix 분석을 바탕으로, Opera (Huang et al., 2023)에 기반한 Vision-enhanced Penalty Decoding을 제안한다.

Over-Trust Logit Penalty

먼저, 기존 프로세스를 간단히 설명하자면, Attention Matrix에서 현재 생성된 시퀀스의 길이 $h$ 에 대한 로컬 윈도우를 설정하고, 하삼각 행렬을 얻은 후 over-trust score matrix와 연산을 수행한다. 이때 벡터의 최대값을 over-trust penalty $\phi(\omega_{\leq h})$ 로 선택하고, 해당 페널티를 원래 로짓에서 뺀다.

Vision-enhanced Penalty Decoding

기존 접근 방식은 텍스트 기반 페널티에만 초점을 맞추어 텍스트에 대한 의존도를 증가시킬 수 있다는 단점이 있다. 이를 개선하기 위해, Figure 4와 같이 over-trust 로컬 윈도우 이외에 추가 로컬 윈도우 $W_h^l$ 를 설정하여 이미지 구성 요소를 저장한다.

이후 vision-enhanced score matrix와 연산을 수행하고, 열별 점수 벡터를 모두 더해 vision-enhanced penalty $\psi(\omega_{\leq h})$ 를 얻는다.
$\psi(\omega_{\leq h}) = \sum_{i=1}^h \omega_i, \text{ s.t. } \omega_i = \prod_{j=1}^l \omega_{i,j} \ (10)$
수치 크기를 고려하여 조정한 후, 전체 페널티 가중치 $\rho(\omega_{\leq h})$ 를 계산한다.

\rho(\omega_{\leq h}) = \phi(\omega_{\leq h}) - \beta \psi(\omega_{\leq h}), \text{ s.t. } \beta = \frac{\sum_{j \leq h} \phi(\omega_j)}{\sum_{j \leq h} \psi(\omega_j)} \ (11)

최종적으로, 전체 페널티 가중치를 다음 토큰 $\hat{x}_h$ 예측에 반영한다.
$\hat{x}_h = \underset{x \in V}{\text{argmax}} [p(x|x_{<h}) - \rho(\omega_{\leq h})] \ (12)$
여기서 $V$ 는 어휘 크기, $x$ 는 예측된 토큰을 나타낸다.

이 식들을 자세히 보면, over-trust penalty $\phi(\omega_{\leq h})$ 가 높더라도, vision-enhanced penalty $\psi(\omega_{\leq h})$ 가 높으면 전체 페널티 $\rho(\omega_{\leq h})$ 가 낮아진다. 즉, 이전에 생성한 텍스트에 대한 의존도가 높더라도 이미지 정보에 많이 집중하고 있다면, 전체 페널티가 감소하게 된다. 이는 모델이 텍스트와 이미지 간의 균형을 맞추면서, 텍스트에 과도하게 의존하지 않고 이미지 정보도 충분히 반영할 수 있도록 유도하는 역할을 한다.

또한, 모든 토큰 $x$ 에 대해 동일한 전체 페널티를 적용함으로써 개별 토큰의 상대적 순위는 변하지 않지만, 확률 분포가 평탄해지는 효과가 있다.

결론적으로 Hierarchical Feedback Learning은 객체 수준과 문장 수준에서의 피드백을 제공하여 모델이 잘못된 생성물을 수정하는 데 도움을 주고, Vision-enhanced Penalty Decoding은 실제 생성 과정에서 이미지 정보에 대한 주의도를 높여, 텍스트에 과도하게 의존하는 문제를 해결하는 데 중요한 역할을 한다.

3. Experimental Setups

3.1 Hallucination Benchmarks

CHAIR (Caption Hallucination Assessment with Image Relevance)

이미지에 실제로 존재하는 객체와 생성된 캡션에서 언급된 객체를 비교하여 Hallucination 정도를 측정함.

$CHAIRS_s$ : 언급된 모든 객체 중 Hallucination 객체의 비율

\mathrm{C H A I R}_{s}=\frac{| \{\mathrm{h a l l u c i n a t e d ~ o b j e c t s} \} |} {| \{\mathrm{a l l ~ m e n t i o n e d ~ o b j e c t s} \} |}, \tag{13}

$CHAIR_i$ : 모든 캡션 중 Hallucination 객체가 포함된 캡션의 비율 $\mathrm{C H A I R}_{i}=\frac{| \{\mathrm{c a p t i o n s ~ w / h a l l u c i n a t e d ~ o b j e c t s} \} |} {| \{\mathrm{a l l ~ c a p t i o n s} \} |}, \tag{14}$

POPE

모델에게 이미지에 특정 객체가 있는지 여부를 묻는 참/거짓 질문을 통해 Hallucination를 평가함. 500개의 이미지에 대해 3,000개의 질문을 생성하고, 정확도, 정밀도, 재현율, F1 점수를 사용해 평가함.

GAVIE (GPT4-Assisted Visual Instruction Evaluation)

인간이 주석한 정답 없이 GPT-4를 사용해 Hallucination를 평가함. GPT-4가 생성된 캡션과 이미지 내용을 비교하고, 정확도와 관련성을 기준으로 점수를 매김.

MMHal-Bench

96개의 이미지-질문 쌍을 사용해 Hallucination를 평가하며, GPT-4가 모델의 응답을 정답과 비교해 점수가 3 이하일 경우 Hallucination로 간주함.

3. 2 Baselines

MiniGPT4
InstructBLIP
LLaVA-1.5
mPLUG-Owl2

3.3 Implement Details

MSCOCO 2014와 Flickr30k 데이터셋에서 무작위로 5,000개의 이미지를 선택하여 실험을 진행함. 각 이미지에 대해 GPT-4를 이용해 짧은 캡션을 기반으로 긴 캡션을 생성함. LLaVA-1.5-7b와 mPLUG-Owl2-7b 모델을 LoRA 튜닝과 deepspeed zero stage 3을 사용해 1 에포크 동안 최소한의 훈련을 진행함. AdamW 옵티마이저를 사용하고, 학습률은 0.0001, 가중치 감쇠는 0.1로 설정됨. 훈련에는 NVIDIA 3090 GPU 두 개가 사용되며, 약 4시간이 소요됨.

4. Result

4.1 Main Results

HELPD를 다양한 LVLM에 적용한 결과, 원래 LVLM과 비교했을 때 여러 평가 지표에서 성능이 향상된 것을 확인할 수 있다.

POPE 벤치마크 결과에 따르면, hierarchical feedback learning이 Accuracy, Precision, F1 Score의 향상으로 이어졌다. 이는 HELPD가 객체와 의미 정보를 결합하여 모델이 환각된 객체를 인식하는 능력을 향상시키는 데 효과적이라는 것을 의미하며, 환각 탐지 및 피드백을 통해 이를 성공적으로 완화할 수 있음을 시사한다.

또한, 인스턴스 수준과 문장 수준 모두에서 환각 생성을 효과적으로 줄이면서도, 생성된 텍스트의 길이는 큰 변화가 없다는 것을 확인할 수 있다.

GAVIE 벤치마크에서도 훈련된 모델이 Accuracy과 Relevancy 모두에서 개선된 성능을 보였다.

MMHAL-Bench에서도 HELPD를 적용한 모델이 기존 기준 모델을 초과하는 우수한 성능을 나타냈다.

5.2 Further Analysis

Break-down Study of Hierarchical Feedback Learning

객체 수준과 문장 수준의 피드백이 환각 완화에 어떻게 기여하는지 분석하기 위해 Ablation 실험을 수행한 결과, 두 유형의 피드백이 모두 환각 완화에 기여했으며, 특히 문장 수준의 피드백이 모델의 환각 저항 능력을 더 효과적으로 향상시켰음을 확인할 수 있다.

The Timing of Incorporating Hierarchical Feed-back Learning

모델의 환각 저항 능력을 극대화하기 위해 hierarchical feedback learning을 어느 훈련 단계에서 도입해야 하는지를 조사하기 위해, 하이퍼파라미터 $c$ 에 대한 Ablation Study를 수행했다.

Different Decoding Strategy

기존 디코딩 전략과 비교했을 때, Vision-enhanced Penalty Decoding이 벤치마크에서 더 우수한 성능을 발휘하는 것으로 나타났다.

5. Conclusion

본 논문에서는 LVLM의 환각을 완화하고, 약간의 추가 훈련만을 요구하는 hierarchical feedback learning을 활용한 HELPD 프레임워크를 제안했다. 실험 결과, 제안된 프레임워크는 문장 길이에 영향을 미치지 않으면서 다양한 LVLM의 환각을 효과적으로 완화하고, 동시에 텍스트 생성 품질을 향상시킨다는 것을 확인할 수 있다.

References

Yuan, F., Qin, C., Xu, X., & Li, P. (2024). HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding (No. arXiv:2409.20429). arXiv. https://doi.org/10.48550/arXiv.2409.20429

Bai, Z., Wang, P., Xiao, T., He, T., Han, Z., Zhang, Z., & Shou, M. Z. (2024). Hallucination of Multimodal Large Language Models: A Survey (No. arXiv:2404.18930). arXiv. https://doi.org/10.48550/arXiv.2404.18930

Huang, Q., Dong, X., Zhang, P., Wang, B., He, C., Wang, J., Lin, D., Zhang, W., & Yu, N. (2024). OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation (No. arXiv:2311.17911). arXiv. https://doi.org/10.48550/arXiv.2311.17911

jy.Hyun

이전 포스트

[논문리뷰] LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning)

다음 포스트