NLP 개요

DONGJIN IM·2022년 3월 12일

AI 이론

AI(NLP) 이론

목록 보기

11/18

NLP

NLP란?

자연어를 처리하는 Processing으로, Natural Language Processing의 약자이다.

자연어(Natural Language)는 일상생활에 쓰는 언어를 의미한다.

NLP 구성

NLU : 자연어를 컴퓨터가 이해할 수 있는 값으로 바꾸는 과정
- 단어나 문장, 문단을 (컴퓨터가) 이해하는 과정
NLG : 컴퓨터가 이해한 값을 사람이 이해할 수 있도록 바꾸는 과정
- 자연어를 적절하게 생성할 수 있는 Task

자연어 처리 분야

Natural Language Processing(NLP)

Major Conference : ACL, EMNLP, NAACL 등
Low-level parsing
- Tokenization : 문장의 단어를 분리하는 단계. 단어를 분리할 기준에 따라 여러 가지 방법의 Tokenization을 생성할 수 있다.
- Stemming : 어간 추출. 단어들을 원형으로 표현하는 것으로 이해하면 편하다. 예를 들어, 'known'이라는 단어를 know라고 취급하는 방식이다.
Word & Phrase-level parsing
- NER(Named Entity Recognition) : 이름을 가진 개체를 인식하는 것(개체명 인식). 비정형 텍스트의 개체명 언급을 미리 정의된 카테고리(인종, 지명, 시간 등)로 분류하는 것
- POS Tagging : 문장 내 단어들의 품사를 식별하여 태그를 붙여주는 것. 주로 Tuple의 형태로써 (단어, 태그) 형태로 출력된다.
- Noun-pharase chunking : Noun을 기준으로 Phrase(구)를 형성하는 것. 문장을 품사로 구분한 뒤, Noun 단어를 기준으로 의존성을 파악하여 구를 형성하는 Task
- Dependency parsing : 문장에 존재하는 단어간 의존 또는 수식 방향으로 관계를 파악하여 문장 구조를 분석하는 방법
- Conference Resolution : 임의의 개체를 표현하는 다양한 단어들을 찾아 연결해주는 Task
Sentence-level parsing
- Sentiment analysis : 감성 분석. 텍스트에 들엉 있는 의견이나 감성, 평가 등 주관적인 정보를 컴퓨터를 통해 분석하는 과정
- Machine Translation : SW를 통해 다른 언어로 텍스트나 음성을 번역하는 것
Multi-Sentence&Paragraph-level parsing
- Entailment prediction : 두 문장 간의 모순 혹은 얼마나 유사한지를 파악하는 Task
- Question answering : 질의 응답
- Dialog systems : 챗봇. 서로 대화를 할 수 있는 시스템 구현
- Summarization : 문단 요약

Text Mining

Major Conference : KDD, The WebConf(formely, WWW), WSDM, CIKM, ICWSM 등
Document나 Text Data에서 유용한 정보를 추출하고, 추출한 정보를 활용하는 분야
Document Clustering(Topic Modeling)
- 다수의 문서로 구성된 문서 집합들을 유사한 속성의 문서들끼리 묶는 과정
- 학습 자료가 주어지지 않는 상태에서 결과를 얻는 비지도 학습으로, Document Classification와 대비된다
Computational Social Science와 큰 연관이 있음
- Computational Social Science : 사회 과학을 빅데이터, 컴퓨터 등을 활용하여 계산적으로 접근하는 학문 분야
- Social Media Data로부터 사람들의 정치적 성향 등을 분석하는 것이 대표적인 예시

Information Retrieveal

목적 : Searcher가 원하는 정보를 가져다 주는 것
Computational Social Science와 큰 연관이 있음
이미 큰 발전을 이룬 분야
- Google이나 Naver 같은 것을 보면 검색 시스템이 얼마나 잘 되어 있는지 알 수 있음
최신 RecSys라는 추천 시스템으로 발전이 되고 있음

NLP 경향

CV, 영상처리 분야와 함께 가장 많이 활용되는 분야로써, 주어진 Text Data를 단어 단위로 분리하여 특정 Dimension(Vector)로 변환해주는 과정인 Word Embedding이 필수적으로 필요하다.

RNN 계열의 LSTM, GRU 등이 과거에는 많이 활용되어 있었으나, "Attention is All you Need"의 Transformer라는 새로운 Model이 나오며 이런 경향이 180도 바뀌었다.

Transformer는 NLP Model의 큰 성능 향상을 가지고 왔고, 최근 대부분의 모델이 이 구조를 기반으로 만들어졌다.
Transformer는 NLP 뿐만이 아닌 다른 분야에서도 많이 활용되고 있다.(ViT)

Self-Attention을 쌓아 나가는 과정으로 자가지도 학습을 진행하는 것이 Transformer가 나온 이후의 추세가 되었다.
(Transformer가 나오기 이전에는 Task별로 특화된 모델이 존재했음)

Transformer의 도입 이후, 자가지도 학습(Supervised Learning)의 활용이 활발해졌는데, 특히 입력 문장에서 일부 단어를 가리고 해당 단어를 맞추는 방식으로 학습이 진행되었다.
대표적인 예시로 BERT나 GPT-3 Model 존재한다.
특정 Task를 위한 추가적인 Labeling 과정이 필요하지 않다는 장점이 존재하여, 대량의 원시 Corpus와 소량의 Labeling Data로도 좋은 성능을 가지고 온다는 장점을 가진다.