Text Mining 방법론

GilLog·2020년 12월 13일
0

Text Mining

목록 보기
2/2

🙆‍♂️ import 🙇‍♂️

텍스트 마이닝의 방법론과 실제: 경험적 관점


Text Mining 주요 방법론

Text는 분석하기도, 주요 특징을 시각화 하기도 어려운 데이터다.
추상적인 단어들로 가득하고, 같은 단어도 문맥에 따라 개념이 변동되고, 유사 동의어 유의어 표현도 다양하다.
통계적 관점에서 단어 하나하나가 각 차원을 이루어 쉽게 처리하기 힘든 고차원성을 가진다.

이러한 어려운 특징을 가진 텍스트의 핵심 의미를 캐내는 방법을 정형화하기 위해서 수십년간 많은 연구가 이루어져 왔다.

아래는 널리 통용 되고 있는 자연어 처리의 주요 개념과 방법들의 예시이다.


형태소(단어) 분석

의미의 최소단위인 형태소(morpheme)단어에 대한 분석텍스트를 분석하는 가장 보편적인 방법이다.

문법적 규칙 혹은 확률에 의한 품사 태깅(part of speech tagging), 개체명 인식(named entity recognition), 철자 교정, 단어 식별(tokenization) 기법 등을 이용한다.

문자열 분석

영어의 음운이나 한국어의 글자의 갯수(n-gram)를 지정하여 전체 텍스트 코퍼스를 분석함으로써 해당 문자열이 나왔을 때 그 다음에 어떤 글자가 나올지확률분포를 통해 예측한다.

핵심어구 추출

텍스트를 어휘적으로 상호 관련 있는 단어들로 나누는 청킹(chunking)을 통해 핵심어구를 추출하거나, 개체명 인식, 관계 추출(relation extraction) 등에 활용한다.

벡터 공간 모델

벡터 공간 모델은 솔튼 등(Salton et al, 1975)에 의해 1970년대에 주창되었고, 요즘 머신러닝 등에서도 종종 언급되고 있는 지금도 활발히 활용되는 방법이다.

벡터 공간 모델에서 문서(document)와 단어(term)각각 벡터(vector)와 차원(dimension)에 대응시켜 통계적 가중치를 구한다.

TF-IDF, 카이제곱 검정, 코사인 유사도 등을 통해 단어의 빈도수 분포에서 중요하지 않은 단어를 걸러내고, 문서의 유사도를 구한다.

동시출현 단어 분석

단어들 사이의 의미상의 관계성을 파악하기 위해 일정한 문맥 내에서 두 단어가 동시출현하는 빈도를 구한 후, 다양한 통계적 방법을 활용하여 유의미한 단어쌍을 추출해 낼 수 있다.

토픽 모델링

구조화되지 않은 대량의 텍스트로부터 숨겨져 있는 주제 구조를 발견하고 카테고리화 하기 위한 통계적 추론 알고리즘으로, LDA (Latent Dirichlet Allocation) 모델이 주로 활용된다.

각각의 창발적인(emergent) 주제를 각 행에 배열되는 단어들의 확률분포를 통해 표현한다.

텍스트의 감성 분석

감성 사전을 기반으로 분석 대상이 되는 전체 텍스트의 감성 비율을 정량화하는 기법이다.

통상적으로 긍정, 중립, 부정 등의 ‘평가어’ 분석이 감성분석으로 이해되나 이는 실제론 기쁨, 우울, 화남 등 심리학적인 감성 카테고리에 기반한 정량화의 한 특수한 사례이다.

의미연결망 분석

키워드 동시출현 분석 기법에 기반하거나 그 한계를 넘어 단어간의 의미 혹은 맥락상의 연결관계를 정의하고, 해당 연결 관계를 시각화하거나 중요한 컨셉을 네트워크 속의 위상(centrality)에 따라 추출하는 방법이다.

머신러닝

SVM(Support Vector Machine), 의사결정트리(Decision Tree), 랜덤 포레스트(Random Forest) 등이 대표적이고, 최근에는 딥 러닝(Deep Learning) 기법이 활용되고 있다.


Text Mining 실제

Text Mining에서 자연어 처리(Natural Language Processing)데이터 전처리-프로세싱-분석-해석으로 이어지는 제일 앞단을 차지하는 과정이다.
자연어 처리 자체가 복잡한 데이터의 분석을 위한 프로세싱을 하는 전가의 보도인양, 잘못 이해하는 경우가 많다.

벡터 공간 모델, 동시출현 단어, 토픽 모델링은 복잡한 텍스트의 모래에서 대강의 특징만을 추출한, 매우 거친 체와도 같다.
이것만으론 현실세계에서의 상식과 경험을 능가하는 통찰을 찾아내기 어렵다.

감성분석, 의미연결망 분석, 머신러닝은 서로 융합되면서 보다 정교하게 발전할 여지가 많다.
단, 빅데이터의 크기가 방법론적으로 산적한 과제들을 자동적으로 해결해 주지 않고, 새로운 이론적 가정과 방법론적 숙고가 필요

머신러닝 역시 보다 나은 수퍼비전(supervision)을 위한 방법론적 천착데이터 테스트의 축적이 필요하다.
인공지능의 학습을 위한 초기의 데이터(seed data)를 정제하고, 인간의 통찰력과 가정을 적용하여 피드백을 받는 과정이 머신러닝의 품질과 실제 필드에서의 해석적 가치를 결정하기 때문

profile
🚀 기록보단 길록을 20.10 ~ 22.02 ⭐ Move To : https://gil-log.github.io/

0개의 댓글