[210204 TIL] Text Analysis 주요 개념

602go·2021년 2월 5일

Deep Learning

목록 보기

14/17

Today I Learned

written by 602

단어 사이의 유사성을 보존하는 연속형의 벡터, ''분산 표상''이라고도 불림

Word2Vec, fastText, GloVe

ElMo, GPT계열, BERT 계열

LSA(Latent Semantic Analysis): 원본 데이터의 정보는 보존하면서 행렬 분해를 통해 차원 축소
토픽모델링: 원래목적은 비지도학습 관점에서 corpus를 관통하고 있는 주요 주제를 판별
1. 문서 별 해당 주제들의 비율(document는 k개의 주제 차원을 갖는 연속 벡터로 표현 가능 -> feature extraction 역할)
2. 토픽 별 주요 핵심 키워드(각각의 토픽들 내 단어 비중이 어떻게 구성되어 있는지)
Doc2Vec: Word2vec의 확장, document 차원에서 distributed representation 산출, 문서와 단어가 동일한 차원의 공간 상에 표현

QA
cf) SQuAD 2.0 dataset
토픽모델링: corpus 내 주제들의 비중을 파악하고 그 주제들이 시간의 흐름에 따라 어떻게 변화하는지 봄으로써 정보 추출, 요약, 이해하는 도구로 활용 (LDA)