[Week 1-2] NLU task 분석 과제

yerim kim·2022년 2월 22일
0

wanted_preOnBoarding

목록 보기
2/4

1. NLU task(Natural Language Understanding)

1-1. Sentiment Analysis(감정 분석)

1-2. Similarity Prediction(유사도 예측)

1-3. Natural Language Inference(자연어 추론)

1-4. Linguistic Acceptability(언어적 용인 가능성)

1-5. Reading Comprehension(기계 독해)

1-6. Intent Classification(의도 분류)


2. Sentiment Analysis

  • NLU sub task 중 Sentiment Analysis를 선택해 탐구해보고자 한다.

2-1. 문제 정의

  • Sentiment Analysis(감정 분석)이란 앞서 Week 1-1 과제로 선택했던 Emotion Classificaion의 상위 task로, 문장의 긍정/부정 혹은 중립을 판단하는 것으로 정의할 수 있다.

  • 해당 기술을 통해 소비자 리뷰 분석과 같이 기업의 product에 대한 반응을 분석할 수 있을 것이다.

2-2. data 소개

  • Setiment Analysis task에서 대표적으로 사용되는 data는 대부분 GLUE에 소개되어 있다.

  • 그 중 SST-2(Stanford Sentiment Treebank) dataset을 분석해보자

  • SST-2의 구조는 위와 같이 sentence와 binary label로 구분되어 있다.

    train.tsv
    row : 67,349
    column : sentence, label
    sentence : 영화 리뷰에서 추출한 단일 문장
    label : binary로 표기된 긍정(1)/부정(0) 값

  • 단순한 긍정/부정 binary label로 이루어져 있어 학습에 용이해 보인다.

2-3. SOTA models

1) SMART-RoBERTa Large

2) T5-3B

  • T5(the Text-To-Text Transfer Transformer), 입력과 출력이 text-to-text로 NLP task를 처리하는 model이다.

  • 기존의 BERT 파생 model들의 출력값이 클래스명이거나 입력값의 일부였던 것과는 달라 다양한 NLP task에서도 동일한 model, loss function, hyperparmeter을 사용할 수 있다는 장점이 있다.(reference)

  • Exploring the Limits of Transfer Learning with a Unified
    Text-to-Text Transformer
    를 통해 더욱 자세한 내용을 확인할 수 있다.


마치며,

  1. Week 1-1 과제를 하며 오직 흥미로만 sub task를 골랐던 것이 모두 NLU sub task였다는 것이 신기했다.

  2. 지금까지는 막연하게 NLP skill stack을 어떻게 쌓을지를 고민했다면, 이번 기회를 통해 내가 어떤 분야에 확실히 흥미를 가지고 있는지 확인할 수 있었다.

  3. 특히 소비자 리뷰 분석과 같이 기업의 product에 대한 결정권에 영향을 줄 수 있는 직무를 구체화해보고자 한다.

profile
데이터 엔지니어를 향해

5개의 댓글

comment-user-thumbnail
2022년 2월 22일

Sentiment Analysis에 T5 모델이 쓰이는군요! 좋은 글 감사합니다 :)

답글 달기

감정분석은 sns를 분석하는데에도 유용할 것 같아요! 소비자의 리뷰라 함은 평점과 함께 작성되기 때문에 리뷰의 내용 말고도 예측할 수 있는 부분이 있죠. SNS는 기업 입장에서 소비자의 심리를 파악하는데 NLU가 제일 필요한 부분이 아닐까 생각해요!

답글 달기
comment-user-thumbnail
2022년 2월 22일

저도 감성분석에 관심이 있습니다. SST-2 dataset은 크기가 크지 않아 학습에 사용하기 좋아보입니다.

답글 달기
comment-user-thumbnail
2022년 2월 22일

sentiment analysis의 두 가지 sota모델을 모두 다뤄주셨군요! 쉽고 깔끔한 정리 감사합니다😊

답글 달기
comment-user-thumbnail
2022년 2월 22일

좋은글 잘 읽었습니다

답글 달기