■ 문제
BI에서 Data Mining과 Text Mining을 비교 설명하시오.
■ 답안
1. 서론 – BI와 고급 분석 기법의 역할
BI(Business Intelligence, 비즈니스 인텔리전스)는 조직의 의사결정을 지원하기 위해 내부 및 외부 데이터를 수집·통합·분석하여 인사이트를 제공하는 기술 및 시스템을 의미한다.
최근 기업들은 대량의 데이터를 바탕으로 경쟁력을 확보하고자 하며, 이에 따라 고급 분석(Advanced Analytics) 기법 중 **Data Mining(데이터 마이닝)**과 **Text Mining(텍스트 마이닝)**의 활용이 증가하고 있다.
이 두 기법은 모두 BI의 핵심 분석 기술이지만 데이터 형태, 분석 방법, 적용 대상 측면에서 차이를 가진다.
2. 본론 – Data Mining과 Text Mining의 비교
(1) 정의 및 개념
| 항목 | Data Mining (데이터 마이닝) | Text Mining (텍스트 마이닝) |
|---|
| 정의 | 정형 데이터(Structured Data)로부터 통계적, 기계학습적 방법을 이용하여 유용한 정보를 도출하는 분석 기법 | 비정형 데이터(Unstructured Text)인 자연어 텍스트로부터 의미 있는 정보를 추출하는 분석 기법 |
| 분석 대상 | DB, 데이터웨어하우스(DW), Excel 등 정형 데이터 | 이메일, 보고서, 소셜미디어, 뉴스, VOC 등 비정형 텍스트 |
| 주요 목적 | 숨겨진 패턴, 예측 모델, 연관 규칙 추출 | 문서 분류, 감성 분석, 키워드 추출, 주제 분석 등 |
| 기반 기술 | 통계학, 기계학습, 패턴 인식 | 자연어처리(NLP: Natural Language Processing), 언어학, 통계학 |
(2) 분석 기법 및 기술
| 항목 | Data Mining | Text Mining |
|---|
| 주요 기법 | 분류(Classification), 군집화(Clustering), 연관규칙(Association Rule), 회귀분석(Regression) | 형태소 분석, 단어 빈도 분석(TF-IDF), 감성 분석, 토픽 모델링(LDA) |
| 분석 도구 | Weka, RapidMiner, SAS Miner, R, Python(scikit-learn) 등 | Python(NLTK, spaCy), R(tm, text2vec), IBM Watson, Google Cloud NLP 등 |
(3) 활용 사례
| 항목 | Data Mining | Text Mining |
|---|
| 활용 사례 | - 카드사: 거래패턴 분석 통한 이상 거래 탐지 - 마트: 연관규칙 기반 상품 추천 | - SNS 기업: 여론 분석을 통한 마케팅 전략 수립 - 제조사: 고객 VOC 분석 통한 품질 개선 |
(4) 장·단점 비교
| 항목 | Data Mining | Text Mining |
|---|
| 장점 | 정형화된 대규모 데이터에 대해 정확한 통계 기반 분석 가능 | 기존에 활용이 어려웠던 비정형 텍스트 데이터에서 인사이트 추출 가능 |
| 단점 | 비정형 데이터에 대한 처리 어려움 | 자연어의 중의성, 문맥 이해의 어려움 등 분석 복잡도 높음 |
3. 결론 – 통합적 관점의 활용
- Data Mining과 Text Mining은 각각 정형·비정형 데이터를 분석하기 위한 BI의 핵심 기술로, 서로 보완적 관계에 있다.
- 정형 데이터 분석을 통해 예측 모델, 패턴 규명이 가능하고, 텍스트 마이닝을 통해 고객 의견, 트렌드, 감성 정보를 파악할 수 있다.
- 최근에는 정형과 비정형을 통합 분석하는 하이브리드 분석 기반 BI가 주목받고 있으며, 이는 전사적 데이터 기반 의사결정을 가능하게 한다.
■ 참고 정리 – 핵심 비교 요약
| 구분 | Data Mining | Text Mining |
|---|
| 데이터 형태 | 정형 (표 형태) | 비정형 (자연어 텍스트) |
| 기반 기술 | 통계, 기계학습 | 자연어처리, 언어학 |
| 주요 기법 | 분류, 군집, 회귀, 연관 분석 | 감성 분석, 키워드 추출, 토픽 모델링 |
| 적용 분야 | 고객 세분화, 사기 탐지, 예측 분석 | VOC 분석, 여론 분석, 문서 분류 |
| 도구 | Weka, RapidMiner, Python | NLTK, spaCy, Watson NLP |