ref: https://bkshin.tistory.com/entry/NLP-3-%EB%B6%88%EC%9A%A9%EC%96%B4Stop-word-%EC%A0%9C%EA%B1%B0
분석에 큰 의미가 없는 단어들. a, an, the와 같은 관사나 I, my 같은 대명사들이 해당된다.
import nltk
nltk.download('stopwords')
print('영어 불용어 갯수:',len(nltk.corpus.stopwords.words('english')))
ref: https://wikidocs.net/21707
단어는 어간과 접사가 있다.
어간을 추출하는 작업이 lemmatization이다.
Punctuation(구두점) 제거는 가장 흔하게 쓰이는 text normalization.