[ML/NLP] 텍스트 마이닝 (Text Mining) 용어정리 및 TDM (Term Document Matrix)

isitcake_yes·2023년 5월 9일

NLP 머신러닝

Text Mining

목록 보기

1/1

✏️ 텍스트 마이닝(Text Mining)이란?

Text Mining = Data Mining + NLP(Natural Language Processing)

정의 : 구조화되지 않은 대규모의 텍스트 집합으로부터 새로운 지식을 발견하는 과정
목적 : 정형화되지 않은 데이터를 정형화된 데이터로 바꾸는 것
과정 : Text > Parse > Weight > Transform > Classification or Cluster

👉 관련 용어 정리

토큰 Token : 가장 작은 단위. 분리자(띄어쓰기, 특수문자 등)를 포함하지 않는 연속적인 문자열.

용어 Term : 특정한 의미를 갖는 토큰.

문서 Document : 토큰으로 이루어진 집합.

코퍼스, 말뭉치 Corpus : 문서의 집합. 대량의 텍스트 데이터.

토큰화 Tokenize : 문장을 토큰들의 연속으로 분석하는 과정.

토크나이저 Tokenizer : 토큰화를 수행하는 프로그램 (ex. 은전한잎, 꼬꼬마 등)

형태소분석 Morphological Analysis : 토큰화(tokenize) + 품사판별 (Part of Speech Tagging)

어휘집합 Vacabulary : 말뭉치에 있는 모든 문서를 문장으로 나누고 토큰화를 실시한 후, 중복을 제거한 토큰들의 집합.

자연어 처리 Natural Language Processing : 인간이 사용하는 언어를 컴퓨터에게 이해시키기 위한 기술

임베딩 Embedding : 자연어를 기계가 이해할 수 있는 벡터(숫자의 나열)로 바꾼 결과 혹은 그 일련의 과정.

불용어 Stopwords(common words) : 자주 쓰이거나 의미를 갖지 않아 변별력이 없는 단어.

스테밍 Stemming : 단어의 뿌리/줄기를 찾는 방법. 다양한 접미사를 제거하고 단어의 수를 감소시키기 위해 사용.

태깅 Tagging : 단어에 품사를 붙이는 과정.

단어-문서 행렬 Term-Document Matrix, TDM : 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것

✏️ TDM (Term Document Matrix, 단어-문서 행렬)

데이터 정형화 : TDM 생성

비정형의 텍스트들(Document)로부터 형태소 분석을 통해 토큰(명사/형태소/Term 등)을 추출한 후 각각의 Document에서 해당 Term이 몇 번 나타나는지를 숫자로 표시하는 행렬 형태로 나타낸다.

가중치 적용 : TF-IDF가중치

Weighting : 문서를 더 잘 나타내는 용어(term)에 가중치 부여
- ex1. 문서 내 빈도가 높은 용어 -> 문서를 잘 설명하기 때문에, 높은 가중치 부여
- ex2. 코퍼스 내 빈도가 낮은 용어 -> 코퍼스 내 문서를 더 잘 식별하기 때문에, 높은 가중치 부여
TF(Term Frequency) 가중치
- TFij = log(1+fij) (여기에서, fij는 빈도수)
  -> 모든 문서에 나타나는 단어(ex. "a", "the")는 문서의 특징을 나타내는데 변별력이 없음(단점)
  -> TF-IDF가중치로 보완!
TF-IDF(Inverse Document Frequency) 가중치
- TFij * IDFi (여기에서, i는 단어, j는 문서)
- IDFi = log( N / dfi) (여기에서, N은 총 문서 수, dfi는 단어i를 포함하는 문서 수)
  -> TF-IDF 값은 전체 문서들(N) 중에서 단어 i가 적은 수의 문서에서 발생할수록, 발생횟수가 많을수록 큰 값을 가진다.
  -> IDF값이 클 수록 중요도가 커진다.

앞으로 임베딩, NLP 기법 등에 대해 공부해보자!! !!
위키독스 참고해서 꾸준히 실습도 해보자~!

isitcake_yes

주니어 개발자 주니어발록 주니어예티 주니어레이스

[ML/NLP] 텍스트 마이닝 (Text Mining) 용어정리 및 TDM (Term Document Matrix)

Text Mining

✏️ 텍스트 마이닝(Text Mining)이란?

👉 관련 용어 정리

✏️ TDM (Term Document Matrix, 단어-문서 행렬)

데이터 정형화 : TDM 생성

가중치 적용 : TF-IDF가중치

0개의 댓글