[2022 NLP 트렌드] EMNLP Accepted paper와 LDA를 활용한 토픽 모델링

Dataism·2022년 11월 30일

2022 Topics EMNLP LDA NLP NLP Topics

들어가며...

얼마 전 EMNLP 홈페이지를 들어갔는데 Accepted paper 목록이 올라와 있는 것을 보았다
(링크 : https://2022.emnlp.org/)

트렌드에 예민한 딥러닝 분야를 연구하는 한 사람으로서, 현재 최신 연구 트렌드가 무엇인지는 항상 관심의 대상이 될 수밖에 없는데

문득 paper list를 바탕으로 토픽 모델링을 해보면 어떨까 궁금해졌다

사용한 데이터와 모델

사용한 데이터는 EMNLP 2022에 올라온 Accepted paper list다.

최신 트렌드를 확인하기 위해서 모델은 전통적으로 토픽 모델링에 주로 활용되고 있는 LDA (Latent Dirichlet Allocation)을 사용하기로 했다.

분석방법

전처리

우선 내가 사용하려고 하는 데이터는 전처리가 전혀 되어 있지 않은 Raw data 그 자체이므로 적절한 전처리가 필요했다. 데이터는 Accepted Paper list 중 article의 title만을 사용했다. 일반적인 딥러닝 기반의 NLP 태스크에 비해 전처리는 간단하게 진행했다. 사용한 전처리 기법은 다음과 같다

Stopword(불용어) 제거

다행히 영어로 된 텍스트이기 때문에 NLTK 라이브러리의 stopword list를 활용했다
추가적으로 도메인 지식을 활용해 불용어 리스트를 추가했다. 예를 들어 "model, machine, learning, text" 이런 단어들은 토픽으로 쓰이기엔 부적절한 단어들이라 생각해 일일이 선별했다

소문자 변환

영어의 경우 소문자로 변환하지 않으면 대문자로 시작하는 단어와 소문자로 시작하는 단어가 다른 단어로 간주될 수 있기 때문에 전부 소문자로 변환했다

모델링

처음에는 LDA만 하려고 했는데, word cloud도 해보면 재밌을 거 같아 추가했다.

Parameter : 토픽은 총 10개를 선정하고, 토픽 별 단어는 5개
Iteration : 200
그 외의 파라미터는 기본값

word cloud

stopword를 제외하고 논문 제목에서 가장 많이 쓰인 단어들을 뽑아냈다

분석결과

Word cloud

가장 눈에 띄는 글자로는 generation, question, answering, translation, knowledge, extraction, contrasive, question 등이 보인다. 좀 더 자세히 살펴보면 few-shot, dialogue, retrieval, multilingual, efficient 등의 키워드들이 보인다.

LDA

코랩 실행 결과를 그대로 가져왔다. 물론 LDA도 시각화 툴이 있지만, 개인적으로 유용하다고 생각되진 않는다. 토픽 내 주요 키워드들을 살펴보자.

Topic1

summarization은 improving, unsupervised와 같은 토픽 내에 위치하고 있다. unsupervised summarization task에 대한 관심이 높다고 추측해볼 수 있다.

Topic 2

knowledge는 graph, information, extraction과 같은 토픽 내에 위치하고 있다. 최근 knowlege augmented model에 대한 관심이 늘어나면서 knowledge graph를 활용하려는 논문들이 많다는 것을 추측해볼 수 있다

Topic 3

extraction, modeling, event, large, relation이 같은 토픽인데, 사실 이 단어들은 논문 제목에 자주 쓰이다보니 묶인게 아닌가 싶다.

Topic 4

question, answering이 같은 토픽 내에 묶여 있다. 뒤에 knowledge, commonsense, augmentation 단어가 같이 묶인 것으로 보아, QA 태스크에서 knowledge base(graph)을 활용한 knowledge augmentation 기법과, 이를 바탕으로 한 commonsense reasoning이 많은 관심을 받고 있다고 생각해 볼 수 있겠다.

Topic 5

detection, classification, few-shot, training, prompt가 있다. 역시나 NLP 에서의 few-shot learning, prompt learning이 핫한 주제임을 알 수 있다.

Topic 6

entity와 recognition이 같은 토픽으로 있는 것을 보니 entity recognition task와 관련된 토픽인 듯 하다. 전통적인 entity recognintion에 multimodal, cross-lingual을 접목하려는 연구가 유행하고 있음을 알 수 있다.

Topic 7

pretraining과 관련된 토픽이다. efficient가 바로 뒤에 나오는 것을 보니 효율적인 pretraining 기법에 대한 연구가 많이 진행되고 있음을 알 수 있다

Topic 8

translation과 관련된 토픽이다. multilingual, better이 같이 나오는 것을 보니, multilingual machine translation의 성능을 높이기 위한 방법들이 연구되고 있음을 알 수 있다

Topic 9

generation, dialogue, retrieval, evaluation, unified라는 키워드 들이 있다. retrieval 기법을 접목해서 dialogue generation을 하려는 연구가 활발히 연구되고 있음을 알 수 있다.

Topic 10

semantic, chinese, parsing, languages, sequence라는 키워드 들이 있다. word cloud를 정리하면서 알게됐지만 이번 EMNLP에서 중국어 NLP에 대한 논문들이 상당히 많이 있었다. 그러한 트렌드가 반영된 것이 아닐까 싶다.

결론

아쉬웠던 점

나름대로 의미있는 결과를 만들어내기 위해 이것저것 시도를 해보았지만 부족한 점이 여러가지 있었던 것 같다.

모든 분석이 unigram 기준이다 보니 구체적인 내용을 알기가 어려웠다. paper에 등장하는 키워드들은 대부분 2-gram 이상의 단어들 (continual learning, knowledge distilation...)이 많기 때문에 더더욱 도메인 지식에 의존할 수밖에 없었다. LDA를 N-gram으로 확장시킨 모델들이 있는 것으로 아는데, N을 몇으로 정할지에 대한 정답도 없기 때문에 결과적으로 큰 차이는 없을 거라고 생각한다. 차후에 좀 더 유연한 N-gram 모델을 사용해서 분석을 해보고 결과를 비교해보는 것도 재밌을 것 같다
LDA는 토픽명을 알려주진 못한다. 즉, 토픽 내에 있는 키워드들을 보고 이 키워드들이 어떠한 토픽(주제)으로 함께 묶여 있는 지 알아내는 건 분석하는 사람의 몫이다. 그렇다보니 전체적으로 나의 주관이 많이 개입될 수밖에 없었다. 그러나 이것은 스스로에 대한 아쉬운 점이라기 보단, LDA라는 모델 자체의 한계라고 생각한다.