텍스트분석 스터디 (1)

고독한 키쓰차·2021년 5월 1일
0

텍스트 분석

목록 보기
1/1

해당 글 및 앞으로 이루어질 내용은 한국어 임베딩 이란 책을 공부하고 스터디하며 정리하는 내용

텍스트 분석 임베딩 방법에 있어서 큰 3줄기 가 있음
1. 행렬 분해, 2. 예측, 3. 토픽 기반

행렬 분해

  • 말뭉치 정보가 들어있는 원래 행렬을 두개 이상으로 쪼갬
    ex) GloVe, Swivel => 후에 더 자세히... 아직은 가볍게

예측

  • 어떤 단어 주변에 특정 단어가 나타날지 예측, 문장 내 일부 단어를 지우고 해당 단어가 무엇일지 맞추는 과정, 뉴럴네트워크
    ex) Word2Vec, FastTest, BERT, ELMo, GPT 등

토픽 기반

  • 주어진 문제에 잠재된 주제를 추론, LDA(Latent Dirichlet Allocation) 를통해.

TF-IDF

  • TF-IDF(w) = TF(w) x log(NDF(w)\frac{N}{DF(w)})

  • 특징 : 단어 빈도 또는 등장 여부를 그대로 임베딩하기에는, 주제를 가늠할 수 없기 때문에 (을/를/이/가 같은 조사로 주제를 예측하기 어렵기 때문) TF-IDF가 필요하다. (하지만, TF-IDF 또한 등장 순서를 고려하지 않는다.)

  • TF : 어떤 단어가 특정 문서에 얼마나 많이 쓰였는지 빈도를 나타냄, 예를 들어 어떤 문서 1에 단어 A 가 10번 나왔으면 문서 1- 단어 A : TF=10

  • DF : 단어가 나타난 문서의 수, 단어 A가 문서1,문서2에 등장했으면 df = 2 가 됨. 즉 TF 는 각 단어들이 문서마다 다른 값을 나타내지만, DF는 단어 기준이기 때문에 각 단어당 고유의 값을 드러냄

  • IDF : 전체문서 수 N 에서 DF로 나눈 뒤 로그를 취한 값, 값이 클수록 특이한 단어라는 뜻 => 즉 을를이가 같은 조사들은 값이 굉장히 작을것임 왜냐면 모든 문서에서 다 갖고있을테니 DF가 굉장히 커지고 그럼 IDF가 작아짐

통계 기반 언어 모델 (단어 순서 중요)

  • Bag of Words 는 빈도수만 중요하기에 통계 기반 언어모델(확률을 중요시 생각함)이 아님
  • 단어 n개가 주어진다면, n개 단어가 동시에 나타날 확률
  • 즉, 잘 학습된 모델은 어떤 문장이 그럴싸한지,(이런 문장의 패턴이 많이 나와야 확률이 높음) 펼가함
  • n-gram : n개 단어를 뜻하는 용어
  • back-off : n을 줄여서 더 작은 n-gram 을 사용하게되면, 해당 문장의 빈도수를 늘릴 수 있음
    ex) 맛있고 이쁜 카페를 가는것은 행복이다
    -> P(Freq(맛있고 이쁜 카페를 가는것은) | Freq(행복이다))
    back-off를 통해 P(α\alphaFreq(카페를 가는것은) | Freq(행복이다)
    bi-gram 으로 변경한거임
  • Smoothing : 데이터 빈도수가 0인것을 막기위해 +1 혹은 +k 를 해줘서 아예 한번도 안나온 데이터의 빈도수의 값을 넣어줌
profile
Data Scientist or Gourmet

0개의 댓글