from nltk.tokenize import TweetTokenizer
tweet = u"Snow White and the Seven Degrees #MakeAMovieCold@midnight:-)"
tokenizer = TweetTokenizer()
print(tokenizer.tokenize(tweet.lower()))
# output : ['snow', 'white', 'and', 'the', 'seven', 'degrees', '#makeamoviecold', '@midnight', ':-)']
def n_grams(text, n):
return [text[i:i+n] for i in range(len(text)-n+1)]
cleaned = ['mary', ',' ,"n't", 'slap', 'green', 'witch', '.']
print(n_grams(cleaned, 3))
# output
# [['mary', ',' "n't"], [',', "n't", 'slap'], ["n't", 'slap', 'green'],
# ['slap', 'green', 'witch'], ['green', 'witch', '.']]
문장과 문서 분류
단어 분류
import spacy
nlp = spacy.load('en')
doc = nlp(u"Mary slapped the green witch.")
for token in doc:
print('{} - {}'.format(token, token.pos_))
# output
# Mary - PROPN (고유명사)
# slapped - VERB (동사)
# the - DET (한정사)
# green - ADJ (형용사)
# witch - NOUN (명사)
# . - PUNCT (구두점)
구문 분석 : 구 사이의 관계를 파악
구분 분석 트리 : 문장 안의 문법 요소가 계층적으로 어떻게 관련되는지를 보여준다.
✔ 구성 구문 분석 트리
✔ 의존 구문 분석