[210204 TIL] Text Analysis 주요 개념

602go·2021년 2월 5일
0

Deep Learning

목록 보기
14/17
post-thumbnail

Today I Learned

written by 602




Text Analysis 주요 개념

Distributed Representation

단어 사이의 유사성을 보존하는 연속형의 벡터, ''분산 표상''이라고도 불림

Pre-Trained Word Models

Word2Vec, fastText, GloVe

Pre-Trained Language Models

ElMo, GPT계열, BERT 계열

  • 분류, 번역, 감성분석 등의 downstream task에 맞게 수정하여 사용

Feature selection vs. extraction

  1. Selection: 중요한 변수들 선택(information gain 등에 따라)
  2. Extraction
  • LSA(Latent Semantic Analysis): 원본 데이터의 정보는 보존하면서 행렬 분해를 통해 차원 축소
  • 토픽모델링: 원래목적은 비지도학습 관점에서 corpus를 관통하고 있는 주요 주제를 판별
    1. 문서 별 해당 주제들의 비율(document는 k개의 주제 차원을 갖는 연속 벡터로 표현 가능 -> feature extraction 역할)
    2. 토픽 별 주요 핵심 키워드(각각의 토픽들 내 단어 비중이 어떻게 구성되어 있는지)
  • Doc2Vec: Word2vec의 확장, document 차원에서 distributed representation 산출, 문서와 단어가 동일한 차원의 공간 상에 표현

문서간의 유사도 평가

  • Cosine Similarity: 단순 빈도가 아닌 분포를 고려

recursive(재귀) vs. recurrent(반복)

Information Extraction(정보 추출)/Retrieval

  • QA
    cf) SQuAD 2.0 dataset
  • 토픽모델링: corpus 내 주제들의 비중을 파악하고 그 주제들이 시간의 흐름에 따라 어떻게 변화하는지 봄으로써 정보 추출, 요약, 이해하는 도구로 활용 (LDA)

0개의 댓글