MetaCode(Deep Learning) - NLP (NLP_intro)

cjun·2022년 12월 26일

MetaCode - Deep Learning(NLP)

목록 보기

1/4

자연어 (natural language) : 일상 생활에서 사용하는 보편적인 언어
자연어 처리 (natural language processing, NLP) : 컴퓨터가 자연어를 처리하는 일
ex) 음성 인식, 번역, 요약, 분류

from nltk.tokenize import TreebankWordTokenizer

데이터 사용 목적에 맞추어 노이즈를 제거
1) 대문자와 소문자를 통일시켜줌 ex) us, US
2) 출현 횟수가 적은 단어의 제거 ex) Floras and faunas
3) 길이가 짧은 단어, 지시 (대)명사, 관사의 제거

단어를 숫자로 바꿔줌
정수 인코딩 (Integer_encoding)
- 1. Dictionary
  - 1) 문장의 토큰화 - 불용어 및 대문자 제거 과정을 거침
  - 2) 빈 단어 dictionary vocab={}를 만든다.
  - 3) 토큰화된 각 단어에 대해서:
  - 4) 단어가 vocab에 속해 있지 않는 경우 --> vocab[단어] = 0
  - 5) 단어가 vocab에 속한 경우 --> vocab[단어] += 1
- 1. 빈도순 정렬
```
vocab = [('apple',8),('July',6),('piano',4),('cup',2),('orange',1)]
word2inx = {word[0] : index +1 for index, word in enumerate(vocab)}
```
Zero-padding
1) 문장들에 정수 인코딩을 거침
2) 각 문장에 대해서:
3) 해당 문장이 가장 긴 문장의 길이보다 작을 경우:
4) 문장 길이를 맞출 때까지 0을 뒤에 추가
One-hot Encoding
1) 0 [1,0,0,0,0,0]
2) 1 [0,1,0,0,0,0]
3) 2 [0,0,1,0,0,0]
4) 3 [0,0,0,1,0,0]
5) 4 [0,0,0,0,1,0]
6) 5 [0,0,0,0,0,1]
저장 공간을 많이 차지해 필요할때만 사용
Word2vec Encoding
- 단어의 유사성을 인코딩에 반영
- 인코딩 벡터가 비슷하다 = 단어가 유사하다
TF-IDF
- Term Frequency - Inverse Document Frequency
- 단어들의 중요한 정도를 가중치로 매기는 방법
  $TF-IDF = tf(d,t)\times idf(d,t)$
- d : 특정 문서 번호
- t : 특정 단어 번호
- $tf(d,t)$ : 특정 문서 d에서 특정 단어 t의 등장 횟수
- $idf(d,t) = log(\frac{N}{df(t)})$
- df(t) : 특정 단어 t가 등장한 문서의 수
- N : 총 문서의 수

토큰화 --> 정제, 추출 --> 인코딩(패딩)

통계(확률) 기반 언어 모델
- 나는 밥을 ____. --> 빈칸에 들어갈 단어를 확률적으로 선택
- 이미 n-1개의 단어가 주어진 경우, 다음에 등장할 단어 확률 계산.
- $P(w_9|w_{1:8}) = \frac{P(w_{1:9}):매우적음}{P(w_{1:8}):적음}$
Markov Chain
- I love reading fantasy novel/
- --> $p(fantasy|i~love~reading) = \frac{p(I~love~reading~fantasy)}{p(I~love~reading)}$
  --> Sparsity Problem
  - N-gram Language Model
  - N개의 단어를 이용하여 다음에 들어갈 단어를 선택
  - $p(fantasy|I~love~reading) \approx p(fantasy|love~reading)$
  - N-gram을 통해서 Sparsity Problem 해결
  - Hyperparameter = N
인공 신경망 기반 언어 모델

벡터 유사도 : Cosine Metric
$cos\theta = \frac{\overrightarrow a ~\cdot ~\overrightarrow b}{||\overrightarrow a||\cdot||\overrightarrow b||}$
문장 유사도 분석 : Example
1. I love apple.
1. Apple is delicious which I love too.
1. I ~~want~~ a delicious food, but ~~not~~ an apple.
1. Deep learning is ~~difficult.~~
love | apple | delicious | love | food | DL
1 1 0 0 0 0 -->norm: $\sqrt 2$
1 1 1 0 0 0 -->norm: $\sqrt 3$
0 1 1 0 1 0 -->norm: $\sqrt 3$
0 0 0 0 0 1 -->norm: $1$
벡터 유사도: Euclidean Metric
Levenshtein Distance
- 단어 사이의 거리를 나타내는 대표적인 척도
- 단어 A를 단어 B로 수정하기 위한 최소 횟수
Levenshtein Distance : Tabular Method
Jaccard Distance
- $J(A,B) = \frac{|A\cap B|}{|A\cup B|}$

Sometimes You gotta run before you can walk.