지식 그래프 생성에 관한 다음 논문 을 읽고 정리한 글.
present a fully data-driven pipeline for generating a knowledge graph (KG) of cultural knowledge and stereotpyes (문화 지식과 stereotype 지식 그래프를 만들어내기 위한 파이프라인에 관한 논문)
기계학습 연구에서 중요한 연구: model-inferent bias 에 대항하는 Fairness, accountability, transparency
Stereotype 을 포함하지 않을 경우 >> lead to inferring traits of individuals from their status or social group. >> systemic discrimination 의 문제가 있음. 따라서 bias reduction 을 위한 워드 임베딩, 분류 작업 필요.
Cultural knowledge playing an impoortant role in contextual situation. So we target cultural knowledge as a form of commonsense.
Cultural knowledge is largely correlated to stereotypes, this work focuses nationality and religious stereotypes.
In this work, create a unified resource of cultural knowledge and stereotypes. = KG (serve as sources of representing knowledge in a structured format.)
특히나 coomomsense reasoning 을 위한 KG 만드는 연구는 진행되어 왔으나 이 연구는 그 중에서도 constructed in automated manner 을 연구.
Cultural KG on 5 religious (Atheism2, Christianity, Hinduism, Islam, Judaism) and 5 national (American, Chinese, French, German, Indian) entities
Question mining: Reddit 과 Twitter 에서 knowledge, stereotype 추출: 아래의 question, statement template 가 등장하면 (고정관념 가정하에) cues for underlying stereotypical notions 로 이용.
Converted into statements: OpenIE 가 interrogative sentence 를 처리하지 못하므로.
Clustering: SentenceTrasformers 를 활용, fast clustering > 유사한 내용 문장끼리 clustering. (singletons 는 그 문화의 특정한 생각을 보여주지 못하고, non-singleton clusters 는 지식을 보여주기에 better representation)
Converted into triples: OpenIE 를 사용해 subject-relation-object 로 변환.
Triple Selection: triples within a cluster >> sentence subject-predicate-object terms. 문법성에 따라 순위, 높은 순위가 그 entire cluster 의 대표로 선택. (KG에서 completeness 가 중요한 요소이기 때문에 이를 고려)
만들어진 KG 에 관해 qualitative and quantitative evaluation 을 해보자.
1.sentiments 와 2.overall distribution of predicates를 평가하고자 함.
1.Sentiment Analysis
ternary(positive, neutral, negative) sentiment analysis over the KG triples (sentences) 진행.
2.Pointwise Mutual Information (PMI)
PMI 라고 하는 는 measures the association of two events.
e와 w 의 연관도를 측정하고 싶은 것이고
e, w가 함께 나타날 확률을
e가 나타날 확률에 w가 나타날 확률을 곱한 것으로 나눈다
w는 함께 등장하는 predicate and object token 이다.
따라서 Infrequent token 의 경우 1. single entity 라면(분모가 작으므로) 상대적으로 high score, 2. said entity 라면 상대적으로 lower score 일 것이다.
하나의 entity 에는 자주 등장하는 token 이면서 다른 entities 에는 자주 등장하지 않는 것에 집중하기 위해, PMI-based association metric 도입:
직관적으로 위의 식은 mitigates the effects of infrequent tokens in the PMI calculation and gives a relative score across all the entities.
결과적으로 는 triples contents 에서 entities 와 함께 등장하는 predicates, object 의 트렌드를 알기 위함.
따라서 single entity 는 분자, 다른 entity 를 모두 포함한 것을 분모로 보내어 계산한 식에(e를 다르게)
는 e와 등장하는 모든 토큰 중 w의 빈도를 곱한 것이다.(e고정)
정리하면, 앞 부분의 식으로 "다른 entities 에는 자주 등장하진 않는지를 체크할 수 있"고, 뒤의 식으로 "하나의 entity 에 자주 등장하는 token 인지를 확인"할 수 있다.
Results
감정 분류 결과를 보자.
human evaluation 은 StereoKG 의 quality 를 평가하기 위해 수행. metric 은
coherence(COH; semantic logicality), completeness(COM; grammatical valency), domain(DOM; whether the triple belongs domain of interest) 3가지.
credibility CR1(binary, wheter the annotator has heard this stereotype before), CR2(whether they believe the information true)
overall quality: success rate(SUC; 위 3개 average > 1)
OA 는 observe Agreement. (평가자들 사이 일치 정도)
COH 는 전반적으로 높았고, COM의 경우 살짝 낮았음. (meaningful but missing information), DOM 은 1에 더 가까워 stereotype 인지에 대한 여부가 not clear했음.
SUC 의 경우 non-singleton 이 singleton 보다 높은 퀄리티. (occurerences of question online are better than unique question)
KG가 어떻게 language model 에 지식으로 결합될까?
intermediate masked language modeling on 1. structured (verbalized triple; concise and less noisy) 2. unstructured form (sentence; expressive and verbose) 을 각각 진행 >> fine-tune >> hate speech detection evaluation
Data
목표: effect of intermediate pre-training (1, 2)
two kinds of down-stream datasets for fine-tuning(Twiiter; OLID/ outside the domain data; WSF)
Models
comlete test set
stereotpyes test set
모델 내에서 stereotypes 이 encode 되었는지 정량화하기 위해 example instances with masked token 과 모델의 top3 prediction 비교
지금까지 automated pipline to extract cultural and stereotypical knowledge from the internet in the from of queries 를 만들었다.
지식을 실제로 결합하는 실험에선 performing intermediate MLM training on cultural knowledge 가 실제로 퍼포먼스 향상에 도움이 됨을 확인(knowledge-crucial smaple에 한해, 즉 그 도메인에서 훈련했으면 그 도메인에 적용해야 함.)
This study presents StereoKG, a scalable data-driven knowledge graph of 4,722 cultural knowledge and stereotype entries spanning 5 religions and 5 nationalities
performing intermediate MLM training on verbalized instances of StereoKG greatly improves the models’ capabilities to predict culture-related content (a slight improvement in classification performance)