Today I Learned
written by 602
Text Analysis 주요 개념
Distributed Representation
단어 사이의 유사성을 보존하는 연속형의 벡터, ''분산 표상''이라고도 불림
Pre-Trained Word Models
Word2Vec, fastText, GloVe
Pre-Trained Language Models
ElMo, GPT계열, BERT 계열
- 분류, 번역, 감성분석 등의 downstream task에 맞게 수정하여 사용
- Selection: 중요한 변수들 선택(information gain 등에 따라)
- Extraction
- LSA(Latent Semantic Analysis): 원본 데이터의 정보는 보존하면서 행렬 분해를 통해 차원 축소
- 토픽모델링: 원래목적은 비지도학습 관점에서 corpus를 관통하고 있는 주요 주제를 판별
- 문서 별 해당 주제들의 비율(document는 k개의 주제 차원을 갖는 연속 벡터로 표현 가능 -> feature extraction 역할)
- 토픽 별 주요 핵심 키워드(각각의 토픽들 내 단어 비중이 어떻게 구성되어 있는지)
- Doc2Vec: Word2vec의 확장, document 차원에서 distributed representation 산출, 문서와 단어가 동일한 차원의 공간 상에 표현
문서간의 유사도 평가
- Cosine Similarity: 단순 빈도가 아닌 분포를 고려
recursive(재귀) vs. recurrent(반복)
- QA
cf) SQuAD 2.0 dataset
- 토픽모델링: corpus 내 주제들의 비중을 파악하고 그 주제들이 시간의 흐름에 따라 어떻게 변화하는지 봄으로써 정보 추출, 요약, 이해하는 도구로 활용 (LDA)