: 데이터 분석은 규모가 아니라 어떤 시각과 통찰을 얻을 수 있는지의 문제
: Data → Insight를 통한 성과 창출
분석 수행 전, 과제 정의 및 결과 도출 방안을 계획
분석 기획 절차
: 비즈니스 이해, 범위 설정 → 프로젝트 정의 → 수행 계획 수립 → 위험 계획 수립
분석 기획 특징
분석 대상 및 방법에 따른 4가지 구분
1) 대상을 알고, 방식을 알고있음 : Optimization
2) 대상을 모르나, 방식은 알고 있음 : Insight
3) 대상은 알고있으나, 방식을 모름 : Solution
4) 대상도 모르고, 방식도 모름 : Discovery
목표 시점에 따라
1) 단기적 접근(과제중심적) : 당면한 과제를 빠르게 해결
2) 중장기적 접근(마스터 플랜) : 전사적으로 장기적 관점에서 과제 도출
3) 혼합 : 마스터 플랜 수립 → 빠른 과제 해결을 통한 가치 증명
분석 기획 필요 역량
분석 기획 시 고려사항
데이터 분석 유형
: 과제의 목적, 목표에 따라 전체적인 방향성 제시
: 데이터 분석 과제 정의 → 우선순위 결정(전략적 중요도, 비즈니스 성과, ROI, 실행용이성 등)
→ 단기/중장기 구분 → 분석 로드맵 수립
빅데이터 특징을 고려한 분석 ROI 요소 : 4V
과제 우선순위 평가기준
분석과제 우선순위 선정 및 조정
분석 로드맵 설정
: 분석과제 수행에 필요한 기준등을 담아 만든 종합적 계획
: 데이터 분석 체계 도입 → 분석 유효성 검증 → 데이터 분석 확산 및 고도화
: 데이터 수집/확보 → 분석 데이터 준비(순차적)
→ 모델링 단계 분석 모델 설계 → 분석모델 적용 → 분석모델 평가
(반복)
도출 방법
하향식 ↓ (Top Down
) : 문제에 대한 해법 탐색
: 데이터 분석 주제 유형
에서 1) Optimization & 3) Solution
상향식 ↑ (Bottom Up
) : 데이터를 통한 문제 재정의 및 해법 탐색
: 데이터 분석 주제 유형
에서 2) Insight & 4) Discovery
혼합 : 동적 환경에서 발산(Bottom Up
), 수렴(Top Down
) 반복적 수행
: 문제에 대한 해법 도출, 각 과정이 체계적(단계화)
: 문제 탐색 ▶ 문제 정의 ▶ 해결방안 탐색 ▶ 타당성 평가(과제 선정)
문제 탐색 기법
1. 비즈니스 모델 기반 : 기업 내부
2. 외부 참조 모델 기반 : 기업 외부
3. 분석 Usecase 정의
문제 탐색 과정
- 비즈니스 모델 캔버스를 통한 과제 발굴
: 9가지 비즈니스 모델 블록
→ 업무, 제품, 고객(문제 발굴 단위) + 규제&감사, 지원 인프라(관리)
- 분석 기회 발굴 범위 확장
: 새로운 문제 발굴과 장기적 접근을 통한 환경/경쟁 구도 변화, 혁신적 분석 기회 추가 도출
: 문제 정의 자체가 어려운 경우, 데이터 기반으로 문제 재정의 → 해결방안 탐색
: 해당 일(사건)이 발생한 이유를 역추적하여 문제 도출
: 새로운 문제 탐색 및 복잡한 상황에서의 문제 해결
디자인 사고 접근법(What 관점
접근)
: 관찰 → 감정이입 → 관점 전환
: 사물을 있는 그대로 인식
비지도 학습에 의한 수행
: 목표값에 대한 사전정의 X
: 데이터 자체만으로 결과 도출
빅데이터 환경에서의 분석
: 인과관계 분석이 아닌 데이터 간 상관관계 분석
프로토타이핑 접근법
: 상향식 접근 방식의 문제 해결법
: 분석 시도 → 결과 확인 → 반복적 개선
: 신속한 모형 제시, 문제 명확화, 필요 데이터 식별 및 구체화
: 사용자 요구사항 및 데이터 정의가 어렵고, 원천 데이터 불명확한 경우에 사용
: 데이터 분석을 효과적으로 수행하고자, 분석 결과를 체계적으로 정리
: 상세한 절차 + 방법 + 도구/기법 + 템플릿/산출물
분석 방법론 생성 과정
- 암묵지, 형식지, 방법론으로 구성
: 암묵지를 형식화 = 형식지
: 형식지를 체계화 = 방법론
: 방법론을 내재화 = 암묵지
PHASE ▶ TASK ▶ STEP
PHASE(단계)
: 완성된 단계별 산출물 생성, 버전 관리 등으로 각 단계 통제
TASK
: 단계를 구성하는 단위 활동, 물리적/논리적 단위의 품질 검토
STEP
: WBS의 워크 패키지, 단위 프로세스
: 요구명세 ▶ 요구분석 ▶ 설계 ▶ 구현 ▶ 테스트 ▶ 유지보수
모형 선정 기준
: 프로젝트 규모 및 성격, 개발 방법/도구, 개발 소요 시간/비용, 산출물 등 고려
모형
: Waterfall
, Prototype
, Spiral
, Iterative
등
: 통계적 패턴, 지식 탐색에 활용 가능한 프로파일링 기반 데이터 마이닝 프로세스
: DB에서 지식을 발견하는 과정을 체계화
Preprocessing
)KDD 분석절차
1. Dataset 선택
2. Data Preprocessing
: Noise, Outlier, 결측치 식별 및 제거, 대체
3. Data 변환
: 학습 / 검증용 데이터 분리
4. Data Mining
: 기법, 알고리즘 선택, 분석 수행
5. 결과 평가
: 결과 해석 = 분석 목적 (일치성 확인)
: 4계층으로 구성된 Data Mining 계층적 프로세스 모델
CRISP-DM 분석절차
1. 업무 이해
2. 데이터 이해
: 초기 데이터 수집/탐색/품질 확인
3. 데이터 준비
: 분석용 Dataset 선택/정제/통합/Formatting
4. 모델링
: 모델링 기법 선택, 테스트 계획 설계, 모형 작성 및 평가
5. 평가
6. 전개
CRISP-DM 분석 방법론 | KDD 분석 방법론 |
---|---|
업무 이해 (Business Understanding) | - |
데이터 이해 (Data Understanding) | 데이터셋 선택 (Selection) 데이터 전처리 (Preprocessing) |
데이터 준비 (Data Preparation) | 데이터 변환 (Transformation) |
모델링 (Modeling) | 데이터 마이닝 (Data Mining) |
평가 (Evaluation) | 데이터 마이닝 결과 평가 (Interpretation/Evaluation) |
전개 (Deployment) | - |
: Sample, Explore, Modify, Model, Assess
: Data Mining 프로젝트의 모델링 작업 중점
SEMMA 분석절차
1. 추출(Sample)
: 통계적 추출, 조건 추출
2. 탐색(Explore)
: 그래프, Clustering, 상관 분석
3. 수정(Modify)
: 수량화, 표준화, 변환, 그룹화
4. 모델링(Model)
: Decision Tree, 로지스틱 회귀
5. 평가(Assess)
: 보고서, 피드백, 모델 검증
: Application 개발을 위한 3계층(PHASE - TASK - STEP
)
비즈니스 이해 및 범위 설정
: 도메인 문제점 파악, 프로젝트 방향 설정, 명세서 작성
프로젝트 정의 및 계획 수립
: 모형 평가 기준 설정, KPI/목표 수준 구체화, WBS 작성
프로젝트 위험 계획 수립
: 위험 식별 및 사전 대응 방안 수립, 우선순위 설정
필요 데이터 정의
: 내/외부 데이터 정의서 작성, 시스템 간 인터페이스 설정, 법적 이슈 고려
Data Store 설계
: 모든 형식 데이터 저장 가능, 논리적/물리적 설계
데이터 수집 및 정합성 검증
: 크롤링, API, ETL, 품질 확보 및 품질 개선
분석용 데이터 준비
: 데이터 범위 확인 및 구조화, 가공 단계
텍스트 분석
: Data Store에서 필요 데이터 추출, 분석 모형 구축 (최종 모형)
탐색적 분석
: Dataset에 대한 정합성 검토, 데이터 편성, 시각화
모델링
: 학습/테스트 데이터 분할
모델 평가 및 검증
: 모형의 완성도 평가(데이터 분석 목적 및 Dataset 특성에 따른 평가 방법 상이)
설계 및 구현
: System Data Architecture & UI 설계
: 모형 구현
시스템 테스트 및 운영
모델 발전 계획 수립
: 생명주기 설정, 모형의 계속성 확보, 유지보수/재구축 방안 마련
프로젝트 평가 및 보고