자연어처리 주요 컨퍼런스(ACL, EMNLP, NAACL)
low-level parsing :
Word-phrase level
sentence level
multi-sentence and paragraph level
KDD, The WevConf, WSDM, CIKM, ICWSM
상품의 키워드 분석 등
Topic modeling, document clustering
사회과학과 밀접하다(트위터 등의 SNS 텍스트 마이닝)
SIGIR, WSDM, CIKM, RecSys
기술이 이미 고도화되어 발전 속도는 더디다.
추천시스템
Transformer가 나오기 전에는 각 분야에 맞는 딥러닝 모델이 있었다면, Transformer가 나오고나서 self-attention 기반의 모듈들이 모든 분야에서 좋은 성능을 보이고 있다.
step 1. 단어장을 만들듯이 사전을 구축한다.
step 2. one-hot 벡터로 encoding
Bag-of-words vector: 특정 문장이나 문서를 해당 단어의 원핫 벡터를 더한 형태로 표현. 가방 안에 단어를 꺼내는 느낌
전체 분류해야할 클래스가 C개 있다고 가정하자. 어떤 문서 d가 C안의 특정 클래스 c가 될 확률을 다음과 같이 나타낼 수 있다.
단어가 등장하지 않았다면 확률이 0이므로 클래스로 절대 분류될 수 없다. 이 문제를 해결하기 위한 다양한 regularization이 존재한다.(임의의 p값을 더하는 등)
단어를 어떠한 좌표공간으로 표현하는 것. 벡터 표현, 의미가 유사한 단어에 대해서는 좌표평면 상 거리가 가까움
같은 문장에서 인접한 단어 간 관련성을 비교
어떤 단어가 주어졌을 때 주변의 단어를 예측하는 방식(SkipGram) 주변 단어로 가운데 단어를 예측하는 방식(CBOW)
자세한 정보는 여기를 확인하자.
word간의 의미론적인 관계를 잘 학습하는 형태이다.
각 단어들의 Euclidean distance를 계산해서 평균을 취해주고, 가장 평균 거리가 긴 단어가 상이한 의미를 지닌 단어로 예측할 수 있다.
각 입/출력 쌍에 대해서 두 단어가 한 윈도우 내에서 같이 등장할 확률과 두 단어 벡터의 내적이 최대한 가까워지도록.
논문 : GloVe
단어쌍이 동시에 등장하는 횟수를 미리 계산하고 이에 대한 log값과 내적값의 groud truth로 사용해서 중복 학습을 막을 수 있다.
선택과제 결과 :
기본 코드 --------- : 92.516
Dropout 0.1 -> 02 : 92.08
epoch 1 -> 5 -----: 92.94
relu --------------: 92.428