Relation Extraction (관계 추출) / Aspect-Based Sentiment Analysis (ABSA) (개체단위 감성분석)

Hong Jun Park·2022년 2월 21일
1

NLP Subtask

1. Relation Extraction (관계 추출)

문제 정의
Unstructured, raw text가 주어졌을 때 그 text를 정형화시키기 위해 relation extraction이 사용됩니다. Named-entity recognition으로 추출된 Entity를 사용해, 추출한 두 개 이상의 entities에 대하여 관계 형성을 하는 방식으로 주로 사용됩니다.

예시로, “Barack Obama was born in Honolulu, Hawaii.” 문장에 대하여 추출된 entities, 'Barack Obama'와 'Honolulu'가 주어졌을 때 Relation Classification으로 Born_in(person, city)과 같은 관계 추출이 가능합니다.

감정 분석, 질의응답, text summarization과 같은 분야에 지식 베이스를 구축하는데 필수적으로 사용됩니다.

데이터 소개

  • task를 해결하기 위해 사용할 수 있는 데이터가 무엇인가?

SciERC 데이타셋은 컴퓨터 과학, 물성물리학, 물리 분야의 커뮤니티와 콘퍼런스에서 출판된 scientific articles에 등장한 각각의 문장들을 6개의 entity category와 6개의 relation category를 사용해 entity 들의 관계를 나타내고 있습니다.

  • 데이터 구조는 어떻게 생겼는가?

train/test 구조가 동일하며, 다음과 같이 구성되어 있습니다.
"clusters": nested list, "sentences": multiple tokenized sentences,"ner": classified named entity, "relations": nested lists of 2 ner followed by classified relation, "doc_key": document key

"clusters": 
[[[12, 13], [15, 15], [37, 37], [47, 47]]],

"sentences": 
 [["We", "present", "a", "syntax-based", "constraint", "for", "word", ...,

"ner": 
[[[3, 4, "OtherScientificTerm"], [6, 7, "Task"],  ...

"relations": 
[[[3, 4, 6, 7, "USED-FOR"], [12, 13, 3, 4, "HYPONYM-OF"]], ...

"doc_key": "N03-2017"

SOTA 모델 소개

  • task의 SOTA 모델은 무엇인가?

RECENT (Relation Classification with Entity Type Restriction)

  • 해당 모델 논문의 요약에서 주요 키워드는 무엇인가?

해당 모델 논문의 주요 키워드는 Entity Type restriction입니다. 현존하는 모델들은 relation classification을 진행할 때 두 개의 entity가 형성할 수 있는 모든 relation을 염두에 두기 때문에 부적절한 relation 또한 부여받을 가능성이 있습니다. RECENT는 entity pair에 해당하지 않는 관계들을 제한합니다.

2. Aspect-Based Sentiment Analysis (ABSA) (개체단위 감성분석)

문제 정의
감성분석은 주어진 문장이 표현하는 감정을 분석/분류하기 위해 사용됩니다.
ABSA는 감정분석의 subcategory로 두 가지 단계로 이루어집니다.
1) Aspect Term Extraction (ATE), 문장에서 개체를 extract 하여
2) Aspect Polarity Classification, 각 개체가 가지는 감성을 identify 합니다.

예시로, "But sushi rolls are bad" 에서 'sushi roll'이 한 개체로 인식되고 'bad'가 감성을 표현하는 Sentiment expression으로 인식되어 sushi roll은 negative sentiment로 classify 됩니다.

데이터 소개

  • task를 해결하기 위해 사용할 수 있는 데이터가 무엇인가?

대표적인 데이터셋 으로는 SemEval-2014 Task 4가 있습니다.

  • 데이터 구조는 어떻게 생겼는가?

데이타셋에는 문장이 주어지고 문장에 포함되는 개체들과 그에 해당하는 sentiment (positive/negative/neutral/both positive and negative)이 표시되어 있습니다.

예시로,
“I hated their fajitas, but their salads were great” → {fajitas: negative, salads: positive} "문장" -> {개체: 감성}

SOTA 모델 소개

  • task의 SOTA 모델은 무엇인가?

LCF-ATEPC (multi-task learning model for Chinese-oriented aspect-based sentiment analysis)

  • 해당 모델 논문의 요약에서 주요 키워드는 무엇인가?

논문의 주요 키워드는 local context focus (LCF) 입니다. 감성 추론에만 집중하는 다른 현존하는 ABSA 모델들과 달리 LCF-ATEPC는 개체 추출과 sentiment polarity 추론이 동시에 가능하며 영어와 중국어가 섞인 데이타셋에도 적용이 가능하다는 것을 실험으로 보여주었습니다.

3개의 댓글

comment-user-thumbnail
2022년 2월 21일

잘읽었습니다. 궁금한 것이 있는데, 관계 추출에서 entity라는 것이 엄밀하게 어떤 것을 의미하는 걸까요? '개체의 분류' 정도로 생각하면 될까요? ㅎㅎ

답글 달기
comment-user-thumbnail
2022년 2월 21일

개체 단위로 감성분석을 하는 것은 처음 알았어요! 개체의 긍/부정 여부는 문맥의 영향을 많이 받을 것 같아서 중립적인 단어도 감성이 편향될 가능성도 있을 것 같아요. 그런 부분은 어떻게 해결하는지, 또한 개체 분석이 어떻게 활용되는지 궁금하네요! 잘 읽었습니다.

답글 달기
comment-user-thumbnail
2022년 2월 21일

NLP에 대한 이해가 깊으신 거 같아요! 많이 도움 받겠습니다 ㅎㅎ

답글 달기