1. 데이터 처리
- 신규시스템이나 DW에 포함되지 못한 자료의 경우, 기존운영시스템(Legacy)이나 스테이징영역(Staging area)와 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합해 사용 가능
- 하지만, 운영시스템에 직접적인 데이터 작업은 매우 위험하므로, 스테이징 역역의 데이터는 legacy에서 임시로 저장된 데이터이기 때문에 가급적이면ODS에서 데이터 전처리를 통해 DW,DM과 결합하여 사용하는 것이 가장 이상적
2. 시각화
- 시각화는 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다도 효율적
- 빅데이터 분석에서 시각화는 필수
- 탐색적 분석에서 시각화는 필수
- SNA분석(사회연결망 분석) 시 자주 활용
3. 공간분석(GIS)
4. 탐색적 자료 분석(EDA)
- 개요: 다양한 차우너고 ㅏ값을 조합하며 특이점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해 가는 과정, 데이터 특징과 내재하는 구조적 관계를 알아내기 위한 기법의 통칭
- EDA 4가지 주제: 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
- 데이터 이해단계, 변수생성 단계, 변수선택 단계에서 주로 활용
5. 통계분석
- 통계
- 기술통계: 표본이 가지고 잇는 정보를 쉽게 파악할 수 있도록 데이터를 정리, 요약하기 위해 하나의 숫자 또는 그래프의 형태로 표현하는 절차
- 추론통계: 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차
- 활용분야: 정부, 농업, 의학, 경영, 스포츠
6. 데이터마이닝
- 개요: 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턱, 규칙 등을 탐색하고 이를 모형화함으로써 이전에 알려지지 않은 유용한 지식을 추출하는 분석법
- 방법론
- 데이터베이스에서의 지식탐색
- 기계학습: 인공신경망, 의사결정나무, 클러스터링, 베이지안분류, SVM 등
- 패턴인식: 장바구니분석, 연관규칙
- 활용분야
- 데이터베이스 마케팅
- 신용평가 및 조기경보시스템
- 생물정보학
- 텍스트 마이닝