Text Mining = Data Mining + NLP(Natural Language Processing)
- 토큰 Token : 가장 작은 단위. 분리자(띄어쓰기, 특수문자 등)를 포함하지 않는 연속적인 문자열.
- 용어 Term : 특정한 의미를 갖는 토큰.
- 문서 Document : 토큰으로 이루어진 집합.
- 코퍼스, 말뭉치 Corpus : 문서의 집합. 대량의 텍스트 데이터.
- 토큰화 Tokenize : 문장을 토큰들의 연속으로 분석하는 과정.
- 토크나이저 Tokenizer : 토큰화를 수행하는 프로그램 (ex. 은전한잎, 꼬꼬마 등)
- 형태소분석 Morphological Analysis : 토큰화(tokenize) + 품사판별 (Part of Speech Tagging)
- 어휘집합 Vacabulary : 말뭉치에 있는 모든 문서를 문장으로 나누고 토큰화를 실시한 후, 중복을 제거한 토큰들의 집합.
- 자연어 처리 Natural Language Processing : 인간이 사용하는 언어를 컴퓨터에게 이해시키기 위한 기술
- 임베딩 Embedding : 자연어를 기계가 이해할 수 있는 벡터(숫자의 나열)로 바꾼 결과 혹은 그 일련의 과정.
- 불용어 Stopwords(common words) : 자주 쓰이거나 의미를 갖지 않아 변별력이 없는 단어.
- 스테밍 Stemming : 단어의 뿌리/줄기를 찾는 방법. 다양한 접미사를 제거하고 단어의 수를 감소시키기 위해 사용.
- 태깅 Tagging : 단어에 품사를 붙이는 과정.
- 단어-문서 행렬 Term-Document Matrix, TDM : 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것
Weighting : 문서를 더 잘 나타내는 용어(term)에 가중치 부여
TF(Term Frequency) 가중치
TF-IDF(Inverse Document Frequency) 가중치
앞으로 임베딩, NLP 기법 등에 대해 공부해보자!! !!
위키독스 참고해서 꾸준히 실습도 해보자~!