NLP 주요학회( ACL, EMNLP, NAACL )
low level parsing
- tokenization - 단어단위로 쪼갬
- stemming - 어근추출
word and phrase(구문) level
- Named entity recognition(NER) - 단일단어 혹은 여러단어로 이루어진 고유명사를 인식하는 테스크(ex - newyork times)
- part-of-speech(POS) tagging - 품사나 성분을 알아내는 테스크
- noun-phrase chunking - 명사구를 식별
- dependency parsing - 종속성 구문 분석
- coreference resolution - 상호참조 분석
sentence level
- sentiment analysis - 긍 부정
- machine translation - 기계번역
Multi-sentence and paragraph level
- entailment prediction - 문장간의 논리적인 내포나 문장관계 유추
- question answering - 질의 응답(키워드로 검색을 하고 독해를 통해 정답을 사용자에게 직접 제시해줌)
- dialog systems - 챗봇과 같은 대화형
- summarization - 요약
NLP Trends
- 각 단어는 Word2Vec 또는 GloVe와 같은 기술을 통해 벡터로 표현
- RNN 계열 모델(LSTM 및 GRU)은 벡터의 시퀀스를 취함
- 어텐션 모듈 이후 NLP 작업의 전반적인 성능이 향상, RNN을 self-attention으로 대체한 Transformer 모델이 도입
- Transformer 모델의 경우와 마찬가지로 대부분의 고급 NLP 모델은 원래 기계 번역 작업을 개선하기 위해 개발되었다
- 트랜스포머 모델이 나오기전에는 다양한 NLP 작업을 위한 맞춤형 모델이 별도 개발되었다
- 트랜스포머가 등장한 이후로 attention 모듈을 쌓아 올려 거대한 모델을 출시했다. 이러한 모델은 특정 작업에 대한 추가 레이블이 필요하지 않는다.
- 이후 전이학습을 통해 모델을 사용한다