오늘은 이어서 위키북스의 "2023 ADsP 데이터분석 준전문가 (전용문, 박현민 지음)" 의 p71~87을 공부했다. 2과목인 "데이터 분석 기획"에 대한 파트다.
크게 두 챕터로 나눠진다.
- 01 데이터 분석 기회의 이해
- 02 분석 마스터플랜
기억하고 싶은 부분을 적어보겠다.
[과목 #2] 1장 데이터 분석 기획의 이해
01 분석 기획과 분석 방법론
1. 분석 기획
[1] 분석 기획의 정의와 특징
(1) 분석 기획의 정의
- 실제 분석을 수행하기 전 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업을 의미한다.
- What을 달성하기 위하여 어떠한 데이터를 가지고 How에 대한 계획 수립
(2) 분석 기획의 특징
- 수학/통계학적 지식, 분석 도구 기술, 비즈니스에 대한 이해 등 역량과 시각이 요구된다
(3) 분석 대상과 그 방법에 따른 4가지 분석 주제
(4) 목표 시점별 분석 기획
- 과제 중심적인 접근 방식 : 빠르게 해결하는 것이 목적
- 장기적인 마스터플랜 방식 : 지속적으로 해결하는 것이 목적
[2] 분석 기획 시 고려사항
(1) 가용 데이터 고려
- 데이버가 확보될 수 있는지, 데이터 유형에 대한 분석이 선행적으로 이루어져야 한다
(2) 적절한 활용 방안과 유스케이스의 탐색
- 유사 시나이로 및 솔루션 최대 활용할 것, 분석 사례를 활용하여 과거의 실패 반복하지 않거나 성공적인 분석을 위한 가이드로 참고한다
(3) 장애요소에 대한 사전 계획 수립
2. 분석 방법론 개요
[1] 분석 방법론 개요
(1) 분석 방법론이란?
- 주어진 과제를 해결하기 위해 조직이 어떠한 절차로 작업을 수행해 나갈 것인지 일련의 절차를 정의한 것이다
(2) 분석 방법론의 필요성 (ft. 구성요소)
- 상세한 절차(Procedure)
- 방법(Methods)
- 도구와 기법(Tools & Techniques)
- 템플릿과 산출물(Templates & Outputs)
[기업의 합리적 의사결정 방해요소]
- 고정 관념
- 편향된 생각
- 프레이밍 효과 : 동일한 사건이나 상황을 두고도 개인의 판단이나 선택이 달라질 수 있는 현상
(3) 분석 방법론의 생성 과정
[2] 분석 방법론이 적용되는 업무 특성에 따른 모델
(1) 폭포수 모델
- 단계를 거쳐 순차적으로 진행하는 방법, 현재 단계가 완료되어야 다음 단계로 진행될 수 있는 하향식 방향으로 진행된다
- 문제나 개선사항이 생기면 이전 단계로 돌아가 피드백 과정을 수행할 수 있다
(2) 프로토타입 모델
- 사용자 중심의 개발방법으로 고객의 요구를 완전히 이해하지 못할 경우 프로토타입 모델을 적용한다
- 일부분을 먼저 개발, 그 이후 사용자의 요구 분석 등 점진적으로 시스템을 개발해 나가는 접근 방식이다
(3) 나선형 모델
- 프로토타입과 유사, 다만 사용자의 요구보다는 위험요소를 사전에 제거한다는 것에 초점을 맞춘다
- 처음 시도하는 프로젝트에는 적용이 용이하다
(4) 계층적 프로세스 모델
- 일반적으로 분석 방법론은 계층적 프로세스 모델의 형태로 구성된다
- 스텝은 WBS(Work Breakdown Struture)의 워크패키지에 할당되며 Input - Process&Tool - Output 으로 구성되는 단위 프로세스다
[빅데이터 분석의 계층적 프로세스]
- 단계(Phase) : 프로세스 그룹을 통해 완성된 단계별 산출물 생성, 버전 관리 등을 통한 통제 필요
- 태스크(Task) : 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
- 스텝(Step) : WBS의 워크패키지에 해당하고, 입력자료-처리및도구-출력자료로 구성된 단위 프로세스
3. 전통적인 분석 방법론 두 가지
[1] KDD 분석 방법론
(1) KDD(Knowledge Discovery in Database) 분석 방법론
- 데이터로부터 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스이다
(2) KDD 분석 방법론 프로세스
- 5단계 : 데이터셋 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 해석과 평가
[2] CRISP-DM 분석 방법론
(1) CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론
- KDD 분석방법론과 비슷하나, 약간 더 세분되어 있다
- 1999년 유럽연합에서 발표된 계층적 프로세스 모델
- 4개의 레벨 : 단계, 일반화 태스크, 세분화 태스크, 프로세스 실행
- 6단계 : 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개
(2) CRISP-DM 분석 방법론 프로세스
4. 빅데이터 분석 방법론 개요
[1] 빅데이터 분석 방법론 개요
(1) 빅데이터 분석 방법론
- 3계층 레벨 (단계, 태스크, 스텝), 5단계(프로세스 그룹)으로 구성되어 있다
- 각 단계는 여러 태스크로 구성된다
- 마지막 계층 '스텝'은 입력자료, 출력및도구, 출력자료 등으로 구성된 단위 프로세스들이다
(2) 빅데이터 분석 방법론의 계층적 프로세스
단계 | 태스크 |
---|
1단계 분석기획 | 비즈니스 이해 및 범위 설정 |
| 프로젝트 정의 및 계획 수립 |
| 프로젝트 위험 계획 수립 (4가지: 회피, 전이, 완화, 수용) |
2단계 데이터 준비 | 필요 데이터 정의 |
| 데이터 스토어 설계 |
| 데이터 수집 및 정합성 검정 |
3단계 데이터 분석 | 분석용 데이터 준비 |
| 텍스트 분석 |
| 탐색적 분석 |
| 모델링 |
| 모델 평가 및 검증 |
4단계 시스템 구현 | 설계 및 구현 |
| 시스템 테스트 및 운영 |
5단계 평가 및 전개 | 모델 발전 계획 |
| 프로젝트 평가 및 보고 |
[2] 빅데이터 분석 방법론 단계별 수행 프로세스
(1) [1단계] 분석 기획
- Task #1 비즈니스 이해 및 범위 설정
- Task #2 프로젝트 정의 및 계획 수립
- Task #3 프로젝트 위험계획 수립
(2) [2단계] 데이터 준비
- Task #1 필요 데이터 정의
- Task #2 데이터 스토어 설계
- Task #3 데이터 수집 및 정합성 검정
(3) [3단계] 데이터 분석
- Task #1 분석용 데이터 준비
- Task #2 텍스트 분석
- Task #3 탐색적 분석
- Task #4 모델링
- Task #5 모델 평가 및 검증
(4) [4단계] 시스템 구현
- Task #1 설계 및 구현
- Task #2 시스템 테스트 및 운영
(5) [5단계] 평가 및 전개
- Task #1 모델 발전 계획 수립
- Task #2 프로젝트 평가 및 보고
[출처]
위키북스 2023 ADsP 데이터분석 준전문가 (전용문, 박현민)
https://linda-suuup.tistory.com/57
https://www.researchgate.net/figure/Steps-in-the-KDD-process_fig1_236373188
https://www.datascience-pm.com/crisp-dm-2/