1.Paperswithcode(https://paperswithcode.com/task/natural-language-understanding)에서 NLU sub task 중 하나를 선택하여 본인 블로그에 정리해보세요. 아래 3가지 항목에 대해서 정리하세요. (각 항목 고려 사항 참고)
- 문제 정의
- task가 해결하고자 하는 문제가 무엇인가?
- 데이터셋 소개(대표적인 데이터셋 1개)
- task를 해결하기 위해 사용할 수 있는데 데이터셋이 무엇인가?
- 데이터 구조는 어떻게 생겼는가?
- SOTA 모델 소개(대표적인 모델 최소 2개 이상)
- task의 SOTA 모델은 무엇인가?
- 해당 모델 논문의 요약에서 주요 키워드들에 대한 설명
Sentiment Analysis(감정 분석)
주어진 문장에 대한 감정을 판별하는 문제를 의미한다. 대체로 문장이 Input으로 주어지면, 이 문장을 미리 label로 지정한 특정 감정으로 classification하는 형태가 대표적인 예시로 보인다.
대표적인 활용 예시인 Review 분야를 예로 들면, 영화에 대한 Review가 Input으로 들어오면(ex. 영화 보다가 잠들뻔 했어요.), 이 Review를 NLU로 이해하여 해당 Review를 긍정/부정으로 분류할 수 있다.
※ 감정 분석 영역에 포함된다고 해야할 진 모르겠지만, 댓글을 보고 악플인지 판단하는 악플 탐지의 경우, output label을 악플이다/아니다로 나눌 수 있을 것이므로 유사한 예시라고 생각할 수 있을 것 같다.
대표적인 Dataset으로 SST가 있다.
SOTA 모델로는 ALBERT, XLNet 등이 있다.
ALBERT가 지닌 설계의 특장점을 잘 설명해주셔서 감사합니다.