Heath.log
로그인
Heath.log
로그인
NLP 기본
Heath_Jeong
·
2021년 3월 7일
팔로우
0
NLP
0
Ustage Week4 - NLP
목록 보기
1/9
Academic Disciplines related to NLP
NLP (major conferences: ACL, EMNLP, NAACL)
State-of-the-art model 사용
Low-level parsing
단어를 의미 단위로 준비하기 위한 단계
Tokenization
단어를 token 이라 부르고, 주어진 문장을 단어 단위로 쪼개는 과정은 tokenization
Stemming
한 단어의 어미 변화를 컴퓨터가 이해하도록 함 (좋다, 좋은데, 좋고 등)
Word and phrase level
단어에 대한 분석 단계
NER (Named Entity Recognition)
New York Times 와 같은 단어를 하나로 인식
POS (Part-of-speech) tagging, noun-phrase chunking, dependency parsing, coreference resolution
Sentence level
문장 분석 단계
Sentiment analysis
문장을 보고 긍정, 부정 구분 (It's not bad → 긍정)
Machine translation
주어진 영어 문장을 한글 문장으로 번역할 때, 문장 이해 및 어순 분석하여 번역
Multi-sentence and paragraph level
다수의 문장 및 문단 분석
Entailment prediction
두 문장간의 논리적 모순 분석
Question Answering
독해 기반 질의 응답 (구글에 질문을 하면 예전에는 해당 키워드 문서 나열했다면, 이제는 답을 내놓음)
Dialog systems
챗봇같은 대화 수행 시스템
Summarization
문서 요약
Text Mining (major conferences: KDD, The WebConf (formerly, WWW), WSDM, CIKM, ICWSM)
빅데이터 분석과 관련 깊음, 1 년 동안 생긴 모든 뉴스 기사에서 키워드를 시간순으로 분석하여 인사이트 제공
Document clustering (e.g., topic modeling)
관련된 문서 군집화
컴퓨테이셔널 사회 과학과도 관련
SNS 에 많이 사용되는 신조어 분석하여 사회적 인사이트 생성
Information Retrieval (major conferences: SIGIR, WSDM, CIKM, RecSys)
구글이나 네이버 등에서 사용되는 정보 검색 기술
이미 충분히 발전하여 발전이 더딤
추천 시스템은 활발한 연구 중
Trends of NLP
CV (이미지 분야) 는 GAN 등 활용하여 빠르게 발전했으나, NLP 분야는 더디게 발전했음
Word Embedding, 여러 차원을 지닌 단어를 점으로 표현 (Word2Vec)
과거에는 RNN 기반 모델이 기본이 되었음
요즘엔 Attention 과 Transformer 기반 모델이 기본
룰 기반 방식 (주어 목적어 보어 등) 은 번역 성능이 낮았음, 어텐션은 단어 간의 관계를 분석하므로 성능이 매우 뛰어남
Transformer 모델은 NMT 외에 CV, 시계열 예측, 신약 개발 등 다양한 분야에 사용됨
발전된 Transformer 모델 (e.g., BERT, GPT-3)
단어 관계 분석은 방대한 데이터로 지도학습하고, 전이 학습으로 자가 지도 학습, self-supervised training (데이터에 라벨 없음 → 문장에서 몇 단어를 가려서 앞 뒤 문맥으로 유추하도록 학습) 을 학습하여 성능 향상
이러한 모델들은 엄청난 cost 가 있기 때문에 학습하기 어려움 (OpenAI 에서 만든 GPT-3 학습하는데 전기세만 몇 억원)
참조
BoostCamp AI Tech
Heath_Jeong
데이터로 문제를 해결하는 엔지니어를 꿈꿉니다.
팔로우
다음 포스트
단어 분석 방법 (BOW, Word2Vec, GloVe)
0개의 댓글
댓글 작성