# Mutual Information

Nonparametric CI Test_MI
Note : MI, Mutual Information What is Mutual Information? Mutual information is a measure of the amount of information that is shared between two random variables. It quantifies the degree of dependence between the two variables by measuring how much knowing one variable reduces the uncertainty about the other variable. See Wikipedia The definition of Mutual Information is as follows: > ${\displaystyle \operatorname {I} (X;Y)=\sum _
[NLP #5] Mutual Information Alleviates Hallucinations in Abstractive Summarization (EMNLP, 2022)
paper: https://aclanthology.org/2022.emnlp-main.399.pdf > code: https://github.com/VanderpoelLiam/CPMI Abstract Background: hallucinate: 요약한게 source document 내용을 제대로 반영하지 못한 경우 어떤 모델이 더 hallucinated content를 생성할 확률이 높은지 확인해 봄 (= high model uncertatinty) 모델들은 cintunuation이 uncertain할 때 주로 많이 나오는 단어들을 디폴트로 사용한다. 이렇게 되면 decoding할 때도 방해가 된다. Research Goal: Propose a decoding strategy : 그냥 target token의 확률로 계산하는 게 아니라 source, target 토큰간의 PMI를 고려해 optimizing해서

[ML] entropy, cross entropy, kl-divergence
Entropy $$ E = H(p)= -\Sigmaipi*log(p_i) $$ : 정보를 표현하는 데 필요한 최소 평균 자원량 흔하게 일어나는 일일수록 정보량이 적고, 적게 일어나는 일일수록 정보량이 많다는 아이디어로 출발하여 아래 그림과 같이 정보량 표현 → entropy : 불확실성 척도 → 불확실하다 = 어떤 데이터가 나올 확률이 적다 = entropy가 높다 Cross-Entropy $$ CE = H(p,q) = -\Sigmaipi*log(q_i) $$ : 특정 정보를 표현한 글자수의 기댓값 (현실값) : 실제값과 예측 값의 차이를 줄이기 위한 entropy 실제분포 p, 예측을 통해 구한 분포 q 엔트로피는 이상값, 크로스 엔트로피는 현실값으로 볼 수