텍스트 마이닝

조천룡·2023년 10월 1일

Deep Learning

목록 보기
3/4
post-thumbnail

텍스트 마이닝 개요

  • 텍스트로부터 고품질의 정보를 도출하는 분석방법으로 입력된 텍스트를 구조화해 그 데이터에서 패턴을 도출한 후 결과를 평가 및 해석하는 일련의 과정이다.
  • 다양한 형태의 문서(웹 콘텐츠, PDF, MS office 파일, XML, 텍스트 파일 등)로부터 텍스트를 획득한 후 문서별 단어의 행렬을 만들어 추가적 분석을 수행하거나 데이터 마이닝 기법을 적용하여 통찰(insight)을 발견하고 의사결정을 지원하는 방법이다.
  • 다양한 포맷의 문서로부터 텍스트를 추출해 이를 하나의 레코드로 만들고 단어 구성에 따라 데이터마트를 구성한다. 단어들 간의 관계를 이용해 감성분석(semtiment analysis),워드 클라우드(word cloud)분석 등을 수행한 후 이 정보를 군집화(Clustering),분류(Classification),소셜네트워크 분석(Social Network Analysis) 등에 활용한다.
  • 주로 구조화된 정형 데이터 속에서 정보나 패턴을 발견하는 데이터 마이닝과는 달리 텍스트 마이닝은 인터넷 데이터, 소셜미디어 데이터 등과 같은 자연어로 구성된 비정형 텍스트 데이터 속에서 정보나 관계를 발견하는 분석 기법이다.

텍스트 마이닝 기능

  • 텍스트 마이닝은 문서 분류(document classification), 문서 군집(document clustering), 정보 추출(information extraction) 등을 위해 자연어 처리(NLP, Natural Language Processing)방법과 컴퓨터 언어학 (computational linguistics) 등을 활용한다.

텍스트 마이닝 과정

1) 텍스트 수집

  • 텍스트 저장소에서 가져오거나 웹 페이지 HTML 소스에서 필요한 텍스트 정보를 크롤링 한다.
  • 다운로느 가능한 데이터 저장소는 다음과 같다

2) 텍스트 전처리

  • 자연어 처리에서 전처리의 지향점은 갖고 있는 코퍼스로부터 복장성을 줄이는 일이다.
  • 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면 해당 데이터를 사용하고자 하는 용도에 맞게 토큰화(tokenization),정제(cleansing),정규화(normalization)하는 작업으로, 일반적으로 다음과 같은 절차로 이루어진다.
  • 토큰화 → 불용어 처리 → 대소문자 통일 → 어근 추출 → 텍스트 인코딩

3) TF-IDE ( Term Frequency-Inverse Document Frequency)

  • 각 단어의 중요도라는 개념을 가중치로 부여하는 기법으로, 가중치는 TFIDF(단어빈도역문서빈도)로 계산할수 있다.
  • TF(t,d)는 문서 d 안에 있는 각 단어 t의 빈도를 나타내고, IDF(t,D)는 각 단어 t가 등장한 문서 D의 역수를 나타낸다.
  • 주로 문서의 유사도, 검색 결과의 중요도 결정 등에 많이 사용된다.

4) 워드 임데빙(Word Embedding)

  • 의미를 최대한 담어 단어(word)를 백터(Vector)로 바꿔주는 모델이다.
  • 여기에는 분산표상(distributed similarity based representation) 개념이 차용 되었는데, 비슷한 분포를 가진 단어의 주변 단어들도 비슷한 의미를 가진다는 것을 말한다. 예를 들어, ‘주어-[ ]-먹었다’라는 문장 구조가 있을 때 [ ] 에 ‘빵’, ‘밥’이 모두 들어갈 수 있다면 밥과 빵은 유사한 역할을 한다고 유츄할 수 있다.
  • 원-핫 인코딩과 달리 한 단어가 미리 정의된 차원(보통 20~200)에서 연속형으로 값을 갖는 벡터로 표현되므로 필요한 벡터 공간이 훨씬 적고, 각 차원은 모두 정보를 가지고 있으므로 백테 연산을 통해 단어 벡터 간 유사도를 구할 수 있다.
  • 2000년대 NNLM(Neural Network Based Language Model) 방법론이 고안되어 현재 2013년 구글에서 개발한 Word2Vec 이라는 방법론으로 진화했다.

5) 텍스트 분석

  • 전처리 과정이 끝나면 복합명사, 사전 미등록 단어나 줄임말 등에 대한 데이터 후처리 과정을 거쳐 해당 데이터를 분석하고 시각화 한다.
  • 텍스트가 가진 의미를 파악하기 위해 토픽 모델링, 감성 분석, 문서 분류, 군집화 등의 분석 방법론을 활용할 수 있다.
  • 감성 분석
    • 텍스트 문장을 분석할 때 문장에서 주관적인 감성을 나타내는 정보를 찾아내어 긍정-부정-중립의 성향을 분석하는 것을 말한다.
    • 문장에서 사용된 단어의 긍정과 부정 여부에 따라 긍정적인 단어가 얼마나 많은지를 파악하여 전체 문장의 긍정/부정 여부를 평가한다.
    • 블로그,트위터 등의 소셜 미디어를 분석하여 제품 및 브랜드에 대한 선호나 평판의 추이 변화를 파악할 때 이용하며, 오피니언 마이닝(Opinion Mining)에 필수적인 분석 기술이다.
    • 주로 포털 계시판,블로그,쇼핑몰과 같은 대규모의 웹 문서를 대상으로 하기 때문에 자동화 된 분석방법을 사용하고 자연어처리 기반 감성분석 기술을 활용한다.
    • 온라인에서 특정 주제에 대한 여론을 분석하는 것을 버지 모니터링이라고 하는데, 기업의 경우 트위터나 인터넷에 올라온 기업 관련 댓글을 실시간으로 분석해 자사 이미지를 파악하고 대응전략을 세우고 있다.

6) 텍스트 시각화

  • 텍스트 데이터의 시각화 기법에는 대표적으로 워드클라우드(Wordcloud)와 의미 연결망 분석(Semantic Network Analysis) 등이 있다.

정보 검색의 적정성

  • 정보검색이나 자연어 처리 분야에서 분석 결과를 평가하기 위해 정확도와 재현율을 사용한다.
profile
10√2 Data

0개의 댓글