부스트캠프 week6 day1

Dae Hee Lee·2021년 9월 6일
0

BoostCamp_NLP

목록 보기
1/14
post-thumbnail

Overview

1. Natural Language Processing

자연어처리 주요 컨퍼런스(ACL, EMNLP, NAACL)
low-level parsing :

  • tokenization
  • stemming(한국어는 더 다양한 어미 가능)

Word-phrase level

  • NER(여러 단어가 합쳐져서 단어)
  • POS tagging 품사 알아내기(주어, 동사, 목적어 등)

sentence level

  • sentiment analysis
  • machiine translation

multi-sentence and paragraph level

  • Entailment prediction(논리성 검증)
  • question answering(독해 기반의 질의응답)
  • dialog systems(챗봇)
  • summarization(요약)

2. Text mining

KDD, The WevConf, WSDM, CIKM, ICWSM
상품의 키워드 분석 등
Topic modeling, document clustering
사회과학과 밀접하다(트위터 등의 SNS 텍스트 마이닝)

3. 정보 검색

SIGIR, WSDM, CIKM, RecSys
기술이 이미 고도화되어 발전 속도는 더디다.
추천시스템

Transformer가 나오기 전에는 각 분야에 맞는 딥러닝 모델이 있었다면, Transformer가 나오고나서 self-attention 기반의 모듈들이 모든 분야에서 좋은 성능을 보이고 있다.

Bag-of-Words

step 1. 단어장을 만들듯이 사전을 구축한다.
step 2. one-hot 벡터로 encoding

Bag-of-words vector: 특정 문장이나 문서를 해당 단어의 원핫 벡터를 더한 형태로 표현. 가방 안에 단어를 꺼내는 느낌

NaiveBayes Classifier for Document Classification

전체 분류해야할 클래스가 C개 있다고 가정하자. 어떤 문서 d가 C안의 특정 클래스 c가 될 확률을 다음과 같이 나타낼 수 있다.

cMAP=argmaxcCP(cd)=argmaxcCP(dc)P(c)P(d)=argmaxcCP(dc)P(c)\begin{aligned} c_{M A P} &=\underset{c \in C}{\operatorname{argmax}} P(c \mid d) \\ &=\underset{c \in C}{\operatorname{argmax}} \frac{P(d \mid c) P(c)}{P(d)} \\ &=\underset{c \in C}{\operatorname{argmax}} P(d \mid c) P(c) \end{aligned}

단어가 등장하지 않았다면 확률이 0이므로 클래스로 절대 분류될 수 없다. 이 문제를 해결하기 위한 다양한 regularization이 존재한다.(임의의 p값을 더하는 등)

Word Embedding

단어를 어떠한 좌표공간으로 표현하는 것. 벡터 표현, 의미가 유사한 단어에 대해서는 좌표평면 상 거리가 가까움

Word2Vec

같은 문장에서 인접한 단어 간 관련성을 비교
어떤 단어가 주어졌을 때 주변의 단어를 예측하는 방식(SkipGram) 주변 단어로 가운데 단어를 예측하는 방식(CBOW)

자세한 정보는 여기를 확인하자.

word간의 의미론적인 관계를 잘 학습하는 형태이다.

Intrusion Detection

각 단어들의 Euclidean distance를 계산해서 평균을 취해주고, 가장 평균 거리가 긴 단어가 상이한 의미를 지닌 단어로 예측할 수 있다.

Application of Word2Vec

  • 기계번역
  • 감정분석
  • image captioning

GloVe

각 입/출력 쌍에 대해서 두 단어가 한 윈도우 내에서 같이 등장할 확률과 두 단어 벡터의 내적이 최대한 가까워지도록.

논문 : GloVe

단어쌍이 동시에 등장하는 횟수를 미리 계산하고 이에 대한 log값과 내적값의 groud truth로 사용해서 중복 학습을 막을 수 있다.

  • 추천 시스템...
    uncased : 대소문자 구분 없이 같은 단어로 학습

추가로 알아볼 것

  • Word2Vec / 원핫벡터
  • Glove 위키독스
  • Further reading
  • 실습 코드 확인
  • 필수 과제
  • 선택 과제

선택과제 결과 :

기본 코드 --------- : 92.516
Dropout 0.1 -> 02 : 92.08
epoch 1 -> 5 -----: 92.94
relu --------------: 92.428

profile
Today is the day

0개의 댓글