텍스트분석 스터디 (1)

텍스트 분석

목록 보기

1/1

해당 글 및 앞으로 이루어질 내용은 한국어 임베딩 이란 책을 공부하고 스터디하며 정리하는 내용

텍스트 분석 임베딩 방법에 있어서 큰 3줄기 가 있음
1. 행렬 분해, 2. 예측, 3. 토픽 기반

어떤 단어 주변에 특정 단어가 나타날지 예측, 문장 내 일부 단어를 지우고 해당 단어가 무엇일지 맞추는 과정, 뉴럴네트워크
ex) Word2Vec, FastTest, BERT, ELMo, GPT 등

TF-IDF(w) = TF(w) x log( $\frac{N}{DF(w)}$ )
특징 : 단어 빈도 또는 등장 여부를 그대로 임베딩하기에는, 주제를 가늠할 수 없기 때문에 (을/를/이/가 같은 조사로 주제를 예측하기 어렵기 때문) TF-IDF가 필요하다. (하지만, TF-IDF 또한 등장 순서를 고려하지 않는다.)
TF : 어떤 단어가 특정 문서에 얼마나 많이 쓰였는지 빈도를 나타냄, 예를 들어 어떤 문서 1에 단어 A 가 10번 나왔으면 문서 1- 단어 A : TF=10
DF : 단어가 나타난 문서의 수, 단어 A가 문서1,문서2에 등장했으면 df = 2 가 됨. 즉 TF 는 각 단어들이 문서마다 다른 값을 나타내지만, DF는 단어 기준이기 때문에 각 단어당 고유의 값을 드러냄
IDF : 전체문서 수 N 에서 DF로 나눈 뒤 로그를 취한 값, 값이 클수록 특이한 단어라는 뜻 => 즉 을를이가 같은 조사들은 값이 굉장히 작을것임 왜냐면 모든 문서에서 다 갖고있을테니 DF가 굉장히 커지고 그럼 IDF가 작아짐

Bag of Words 는 빈도수만 중요하기에 통계 기반 언어모델(확률을 중요시 생각함)이 아님
단어 n개가 주어진다면, n개 단어가 동시에 나타날 확률
즉, 잘 학습된 모델은 어떤 문장이 그럴싸한지,(이런 문장의 패턴이 많이 나와야 확률이 높음) 펼가함
n-gram : n개 단어를 뜻하는 용어
back-off : n을 줄여서 더 작은 n-gram 을 사용하게되면, 해당 문장의 빈도수를 늘릴 수 있음
ex) 맛있고 이쁜 카페를 가는것은 행복이다
-> P(Freq(맛있고 이쁜 카페를 가는것은) | Freq(행복이다))
back-off를 통해 P( $\alpha$ Freq(카페를 가는것은) | Freq(행복이다)
bi-gram 으로 변경한거임
Smoothing : 데이터 빈도수가 0인것을 막기위해 +1 혹은 +k 를 해줘서 아예 한번도 안나온 데이터의 빈도수의 값을 넣어줌

Data Scientist or Gourmet