문제 정의
Unstructured, raw text가 주어졌을 때 그 text를 정형화시키기 위해 relation extraction이 사용됩니다. Named-entity recognition으로 추출된 Entity를 사용해, 추출한 두 개 이상의 entities에 대하여 관계 형성을 하는 방식으로 주로 사용됩니다.
예시로, “Barack Obama was born in Honolulu, Hawaii.” 문장에 대하여 추출된 entities, 'Barack Obama'와 'Honolulu'가 주어졌을 때 Relation Classification으로 Born_in(person, city)과 같은 관계 추출이 가능합니다.
감정 분석, 질의응답, text summarization과 같은 분야에 지식 베이스를 구축하는데 필수적으로 사용됩니다.
데이터 소개
SciERC 데이타셋은 컴퓨터 과학, 물성물리학, 물리 분야의 커뮤니티와 콘퍼런스에서 출판된 scientific articles에 등장한 각각의 문장들을 6개의 entity category와 6개의 relation category를 사용해 entity 들의 관계를 나타내고 있습니다.
train/test 구조가 동일하며, 다음과 같이 구성되어 있습니다.
"clusters": nested list, "sentences": multiple tokenized sentences,"ner": classified named entity, "relations": nested lists of 2 ner followed by classified relation, "doc_key": document key
"clusters":
[[[12, 13], [15, 15], [37, 37], [47, 47]]],
"sentences":
[["We", "present", "a", "syntax-based", "constraint", "for", "word", ...,
"ner":
[[[3, 4, "OtherScientificTerm"], [6, 7, "Task"], ...
"relations":
[[[3, 4, 6, 7, "USED-FOR"], [12, 13, 3, 4, "HYPONYM-OF"]], ...
"doc_key": "N03-2017"
SOTA 모델 소개
RECENT (Relation Classification with Entity Type Restriction)
해당 모델 논문의 주요 키워드는 Entity Type restriction입니다. 현존하는 모델들은 relation classification을 진행할 때 두 개의 entity가 형성할 수 있는 모든 relation을 염두에 두기 때문에 부적절한 relation 또한 부여받을 가능성이 있습니다. RECENT는 entity pair에 해당하지 않는 관계들을 제한합니다.
문제 정의
감성분석은 주어진 문장이 표현하는 감정을 분석/분류하기 위해 사용됩니다.
ABSA는 감정분석의 subcategory로 두 가지 단계로 이루어집니다.
1) Aspect Term Extraction (ATE), 문장에서 개체를 extract 하여
2) Aspect Polarity Classification, 각 개체가 가지는 감성을 identify 합니다.
예시로, "But sushi rolls are bad" 에서 'sushi roll'이 한 개체로 인식되고 'bad'가 감성을 표현하는 Sentiment expression으로 인식되어 sushi roll은 negative sentiment로 classify 됩니다.
데이터 소개
대표적인 데이터셋 으로는 SemEval-2014 Task 4가 있습니다.
데이타셋에는 문장이 주어지고 문장에 포함되는 개체들과 그에 해당하는 sentiment (positive/negative/neutral/both positive and negative)이 표시되어 있습니다.
예시로,
“I hated their fajitas, but their salads were great” → {fajitas: negative, salads: positive} "문장" -> {개체: 감성}
SOTA 모델 소개
LCF-ATEPC (multi-task learning model for Chinese-oriented aspect-based sentiment analysis)
논문의 주요 키워드는 local context focus (LCF) 입니다. 감성 추론에만 집중하는 다른 현존하는 ABSA 모델들과 달리 LCF-ATEPC는 개체 추출과 sentiment polarity 추론이 동시에 가능하며 영어와 중국어가 섞인 데이타셋에도 적용이 가능하다는 것을 실험으로 보여주었습니다.
잘읽었습니다. 궁금한 것이 있는데, 관계 추출에서 entity라는 것이 엄밀하게 어떤 것을 의미하는 걸까요? '개체의 분류' 정도로 생각하면 될까요? ㅎㅎ