데이터 분석 기획의 이해
1. 분석기획 방향성 도출
분석기획이란?
- 과제를 정의하고 결과를 도출할 수 있도록 관리 방안을 사전에 계획 하는 것
분석 대상과 방법
분석대상, 분석방법
known, known = optimizer
known, unkown = solution
unkown, known = insight
unknown, unkown = discovery
목표 시점 별 분석 기획
- 과제 중심적인 접근 방식 - Speed, Quick & Win, Problem Solving
- 장기적인 마스터 플랜 방식 - Accuracy & Deploy, Long Term, Problem Definition
분석 기획시 고려사항
- 가용데이터 고려 (데이터 확보 및 유형에 따른 솔루션 및 분석 방법 결정)
- 적절한 활용방안과 유즈케이스 (기존 구현된 유사 시나리오 활용)
- 장애요소들에 대한 사전 계획 수립 (교육 및 활용방안 등의 변화 관리)
2. 분석 방법론
분석 방법론 개요
- 방법론은 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어 어느정도 지식만 있으면 활용이 가능해야 함.
- 합리적인 의사결정을 막는 장애요소
- 고정관념, 편향된 생각, 프레이밍 효과
방법론의 적용 업무의 특성에 따른 모델
- 폭포수 모델 : 단계 순차적 진행
- 프로토 타입 모델 : 일부분을 우선 개발하고 사용자의 요구 분석 및 성능 평가하여 결과를 통해 개선 작업
- 나선형 모델: 반복을 통해 점증적으로 개발, 단 관리 체계를 갖추기 못할 경우 복잡도 상승
KDD 분석 방법론
KDD란?
- 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있는 데이터 마이닝 프로세스
KDD 분석 절차
- Data Selection → Preprocessing → Transformation → Data Mining → Interpretation / Evaluation
CRISP-DM
- 계층적 프로세스 모델 4개 레벨로 구성
- 최상위 레벨: 단계(Phases)
- 일반화 Tesk (데이터 마이닝 단일 프로세스 완전 수행)
- 세분화 Tesk (구체적인 수행 레벨)
- Process Instances : 프로세스 실행(데이터 마이닝을 하기 위한 구체적인 실행)
CRISP-DM Phases
- 단계는 6개의 레벨로 구성
- 업무 이해→ 데이터 이해 → 데이터 준비 → 모델링 → 평가 → 전개
- 위 단계는 단방향이 아닌 단계간 피드백을 통해 단계별 완성도를 높임
Phases 업무 이해
- 프로젝트 목적이나 요구사항 파악, 데이터 분석을 위한 도메인 문제정의, 프로젝트 계획 수립
Phases 데이터 이해
- 분석을 위한 초기 데이터 수집, 데이터 기술 분석, 데이터 속성 탐색, 품질 확인
Phases 데이터 준비
- 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터 편성, 데이터 통합, 데이터 포멧팅
Phases 모델링
- 모델링 기법선택, 모델 테스트 계획 설계, 모델작성, 모델 평가
Phases 평가
- 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
Phases 전개
- 실 업무에 전개 계획 수립, 모니터링 유지보수 계획 수립, 종료보고서 작성, 프로젝트 리뷰
빅데이터 분석 방법론
빅데이터 분석의 계층적 프로세스
단계(phase)- 테스크(Task) - 스텝(step)
테스크?- 각 단계는 여러개의 테스크로 구성, 물리적 논리적 단위로 품질 검토 항목
스탭? - WBS의 워크패키지, 입력자료, 처리 및 도구, 출력자료로 구성
빅데이터 분석 방법론 5단계
분석 기획 → 데이터 준비 → 데이터 분석 → 시스템구현 → 평가 및 전개
분석 기획
- 비지니스 이해 및 범위설정 (SOW : Statement Of Work 수립)
- 프로젝트 정의 및 계획 수립 (WBS : Work breakdown structure 작성)
- 프로젝트 위험계획 수립
데이터 준비
- 필요 데이터 정의
- 데이터 스토어 설계 (정형, 비정형 데이터스토어 설계)
- 데이터 수집 및 정합성 점검 (데이터 수집하고 설계한 스토어에 저장)
데이터 분석
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석 (EDA 통계적 분석 및 시각화)
- 모델링 (데이터 분할, 데이터 모델링, 모델 적용 및 운영 방안)
- 모델 평가 및 검증 (모델 결과 보고서, 모델 검증 보고서)
시스템 구현
평가 및 전개
3. 분석 과제 발굴
분석과제 발굴 방법
-
하향식 접근 방법
- 문제탐색 단계 (하향식 1단계): 문제를 해결함에 발생하는 가치에 초점 (업무, 제품, 고객, 규제와 감사, 지원 인프라)
- 문제 정의 단계 (하향식 2단계): 비즈니스 문제를 데이터 문제로 변환
- 해결 방안 탐색 (하향식 3단계): 데이터 분석 문제를 해결
- 타당성 검토 (하향식 4단계): 비용대비 편익 분석 관점, 데이터 기술 타당성
-
상향식 접근 방법
- 정의 : 다양한 원천 데이터를 대상으로 분석을 수행하여 가치있는 모든 문제 도출
- 비지도 학습 (목적이 명확한게 아니고 데이터 자체의 연관성 유사성등을 중심으로 데이터 상태 표현)
- 프로토타이밍 접근법: 요구사항이나 데이터를 정확히 규정하기 어려울 때 일단 분석을 해보고 결과를 확인하며 반복적으로 개선
- 문제 정의가 불명확할 때 문제 이해 및 구체화 도움 줌
- 데이터 집합이 모두 존재하지 않을 경우 순환적인 협의 과정
- 데이터 정의를 재검토하여 데이터의 사용목적과 범위 확대
- 디자인 사고 (상향식 접근, 하향식 접근 반복 수행)
4. 분석 프로젝트 관리 방안
분석과제 관리를 위한 5가지 주요 영역
- Data size
- Data Complexity
- Speed
- Analytic Complexity
- Accuracy & Precision
분석 마스터 플랜
1. 마스터 플랜 수립 프레임 워크
우선순위 고려요소
- 전략적 중요도
- 비즈니스 성과/ROI
- 실행 용이성
분석 마스터 플랜이란?


2. 분석 거버넌스 체계 수립
거버넌스란?
- 규칙, 규범 및 행동이 구조화, 유지, 규제되고 책임을 지는 방식 및 프로세스
분석 거버넌스란?
- 데이터 분석의 지속적인 적용과 확산을 위한 거버넌스 체계

분석 준비도
- 기업이 데이터 분석 도입의 수준을 파악하기 위한 진단 방법

분석 성숙도

분석 사분면
성숙도 준비도
높음, 높음 : 확산형 (기업에 필요한 6가지 구성요소 및 부분적 도입 확산 필요)
높음, 낮음 : 도입형 (분석 기법 등이 부족하지만 준비도 높아 바로 도입 가능)
낮음, 높음 : 정착형 (준비도는 낮으나 내부에서 재한적 사용 정착이 필요)
낮음, 낮음 : 준비형 (조직, 분석 기법, 준비 되있지 않아 사전 준비 필요)
데이터 거버넌스란?
- 전사 차원의 모든 데이터에 대해 표준화된 관리체계를 수립하고 운영을 위한 프레임 워크 및 저장소 구축

빅데이터 분석을 위한 3가지 조직 구조
