Text Mining

GilLog·2020년 12월 9일
0

Text Mining

목록 보기
1/2

🙆‍♂️ import 🙇‍♂️

텍스트 마이닝의 개념 및 정의[크네이트 NaverBlog]

텍스트 마이닝의 개념 [justdoit]

고객의 소중한 의견을 분석하는 텍스트 마이닝[FastCampus]

Text Mining[AiStudy]

Text Mining

Text MiningText Data로 부터 새로운 고급 정보를 이끌어 내는 과정으로 비정형 데이터 Mining의 유형중 하나이다.

Text Mining은 말 그대로 Text을 캐낸다(Mining)는 의미로, 단어의 출현 빈도, 단어간 관계성 등을 파악하여 유의미한 정보를 추출하는 것이다.

Text MiningData Mining, NLP(자연어처리) 등 다양한 분야가 융합되어 있는 영역이다.
자연어 : JAVA와 같은 프로그래밍을 언어와 달리, 우리가 일상생활에서 사용하는 말, 언어.

Text Mining 출현

실제 기업에서 생성, 저장, 재사용하는 정보 중 20% 만이 활용성이 높은 정형 데이터로 구성되어 있고, 나머지 80%는 워드프로세서, e-mail, 프리젠테이션, 스프레드시트, PDF 와 같은 복합문서와 인터넷 페이지 등의 비정형 텍스트 형태로 구성되어 있다.

정형데이터의 SQL 검색으로부터 시작한 정보검색비정형 테이터를 위한 검색으로 발전하게 되고 다양한 검색 agent를 이용한 웹 검색으로 발전하게 된다.
하지만 검색엔진들이 너무나 많은 정보를 검색해 주기 시작, 검색의 문제는 원하지 않는 정보들 사이에서 유용한 정보를 찾는 것으로 변화

이러한 정보 검색 환경에서 유용한 정보를 효과적으로 찾기 위해비정형 데이터인 문서로부터 유용한 정보를 추출하고 가공하는 기술이 필요하게 되었다.

Text Mining & Data Mining

Text MiningData Mining
구조관계형 데이터 구조비/반정형 텍스트 데이터
대상수치 또는 범주화된 데이터텍스트
목적미래 상황 결과 예견 및 예측적합 정보 획득, 의미 정제, 범주화
방법기계학습기계학습, 인덱싱, 언어 처리, Ontology 등

Data Mining은 DB에 저장된 자료와 같이 정형화된 데이터로부터 정보를 추출, 가공하는 기술로, 이미 실용성을 갖추고 많은 분야에서 널리 활용되고 있다.

Text Mining은 디지털 정보의 대부분을 구성하는 비/반정형 데이터에 대하여 자연어 처리(Natural Language Processing)기술과 문서처리 기술을 적용하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다.

Text Mining 의 핵심 연구 분야문서요약(Summarization), 특성추출(Feature Extraction) 등이 있고 그 응용 분야는 매우 다양하다.

Text Mining 응용

Text Mining의 가장 일반적인 응용Data Mining 관점에서 문서로부터 구조화된 정보를 추출하여 DB화 시키거나 규칙을 찾아내는 것이다.

Text Mining의 다른 대표적인 응용분야는 아래와 같다.

  1. 사용자가 Web 상에서 문서를 찾는 것을 도와주거나 사용자 Profile 생성 및 분석

  2. 문서에 쓰인 자연언어 식별

  3. 대량 DB에서 문서의 분류 및 군집화

  4. 문서분류(Text Categorization) 정보를 이용한 문서 재해석

  5. 신문/논문/보고서 요약

  6. 문서 번역

  7. 시계열(Time Series) 정보 획득을 통한 시장 및 위험도 분석

  8. 문서 색인

  9. 문서 여과(Filtering) 및 추천(Recommendation)

  10. 대표적 키워드나 토픽(Topic) 추출

  11. 질의응답 시스템(Question Answering System)

  12. 대규모 문서에서의 탐색

profile
🚀 기록보단 길록을 20.10 ~ 22.02 ⭐ Move To : https://gil-log.github.io/

2개의 댓글

comment-user-thumbnail
2020년 12월 17일

좋은글 감사합니다ㅋㅋ

1개의 답글