[AI NLP] _ week1-2

장원서·2022년 5월 10일

NLP PROJECT

목록 보기
2/3

NLU Subtask

Text classification

Text classification is the task of assigning a sentence or document an appropriate category. The categories depend on the chosen dataset and can range from topics.

  • Text classification은 Natural Language Processing(NLP) task 중 스팸메일, 사기성메일, bot-detection, emergency response 등 을 분류하는데 용이하다

💻 Data Set

TREC Data Repository https://trec.nist.gov/data.html

NLP 관련 논문, news articles, spam, question/answer data set 등, 다양한 text data를 모아둔 respository.

BertGCN(SOTA)

Text Classification by Combining GCN and BERT

  • TextGCN
    텍스트 분류에 GCN사용
    전체 말뭉치에서 대형 그래프를 구성한 node의 역할 수행

  • BertGCN
    Bert + TextGCN
    Large Sacle의 사전학습과 transductive 학습을 통해 text classification 문제를 해결
    Dataset에 대하여 graph를 구성하고, 각각의 문서에 Bert representation을 통해 node로 나타내고 BERT와 GCN을 함께 훈련함으로 방대한 양의 raw data 와 레이블이 지정되지 않은 데이터를 함께 사용할 수 있다는 이점을 가지고 있음

Main Keyword: Bert, GCN,  transductive learning, representation learning

REFERENCES

profile
Student

0개의 댓글