2과목 데이터 분석 기획
1장 데이터 분석 기획의 이해
1절 분석 기획 방향성 도출
✅ **분석의 4가지 유형**
- 최적화(Optimization) : 분석 대상 및 분석 방법을 이해하여 현 문제를 최적화의 형태로 수행
- 솔루션(Solution) : 분석 대상을 알고 분석 방법을 모르는 경우, 솔루션을 찾는 방식으로 과제 수행
- 통찰(Insight) : 분석 대상을 모르나 기존 분석 방식을 활용해 분석
- 발견(Discovery) : 분석 대상 및 분석 방법을 모르는 경우, 발견을 통해 대상을 새로 선정
✅ **목표 시점별 분석 기획 방안**
- 과제 중심적인 접근 방식의 특징
- 목표 시점별로 당면한 과제를 빠르게 해결하는 방식
- Speed & Test
- Quick & Win
- Problem Solving
- 장기적인 마스터 플랜 방식의 특징
- 지속적인 분석 문화 내재화
- Accuracy & Deploy
- Long Term View
- Problem Definition
✅ **분석 기획시 고려사항**
- 가용 데이터(Available Data)
- 데이터의 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다.
- 적절한 비지니스 유스케이스(Proper Business Use-Case) 탐색
- 유사 분석 시나리오 및 솔루션이 있다면 이를 최대한 활용해야 한다.
- 장애 요소들에 대한 사전 계획 수립(Low Barrier of Execution)
- 일회성 분석으로 그치지 않고 조직의 역량을 내재화하기 위해서는 충분하고 계속적인 교육 및 활용 방안 등의 변화 관리(Change Management)가 고려되어야 한다.
✅ **데이터의 종류**
- 정형 : ERP, CRM Transaction data, Demand Forecast 등
- 반정형 : sensor, machine data, Competitor pricing 등
- 비정형 : Email, SNS, voice, IoT, 보고서, news 등
2절 분석 방법론
✅ **분석 방법론의 구성 요소**
- 절차(Procedures)
- 방법(Methods)
- 도구와 기법(Tools&Techniques)
- 템플릿과 산출물(Templates&Outputs)
✅ **분석 방법론의 3가지 모델**
- 폭포수모델
- 단계를 순차적으로 진행, 이전 단계가 완료되어야 다음 단계로 순차 진행하는 하향식 진행
- 문제점이 발견되면 전 단계로 돌아가는 피드백 수행
- 프로토타입 모델
- 사용자의 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법
- 사용자들이 편하게 사용할 수 있을 것이라 예상되는 특정 가설을 생성하여 서비스를 설계하고 디자인에 대한 실험도 실행한다.
- 프로토타입을 보고 완성시킨 결과물을 통해 가설을 확인할 수 있다.
- 신속하게 해결책 모형 제시, 상향식 접근 방법이다.
- 시제품이 나오기 전의 제품의 원형으로 개발 검증과 양산 검증을 거쳐야 시제품이 될 수 있다.
- '정보시스템의 미완성 버전 또는 중요한 기능들이 포함되어 있는 시스템의 초기모델' 이다.
- 나선형 모델
- 반복을 통해 점증적으로 개발, 처음 시도하는 프로젝트에 적용이 용이하지만 반복에 대한 관리체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다.
✅ **KDD 분석 절차**
- 데이터셋 선택(Selection) : 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정
- 데이터 전처리(Preprocessing) : 데이터셋에 포함되어 있는 잡음(Noise)과 이상치(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거하거나 의미있는 데이터로 처리하는 데이터셋 정제 작업 단계
- 데이터 변환(Transformation) : 분석 목적에 맞는 변수 선택, 데이터의 차원 축소
- 데이터 마이닝(Data Mining) : 데이터의 패턴을 찾거나 데이터를 분류 또는 예측 등의 마이닝 작업 시행
- 데이터 마이닝 결과 평가(Interpretation/Evaluation)
✅ **CRISP-DM 분석**
- 업무 이해(Business Understanding)
- 주요구성 : 업무 목적 파악 - 상황 파악 - 데이터 마이닝 목표 설정 - 프로젝트 계획 수립
- 데이터 이해(Data Understanding)
- KDD의 데이터셋 선택, 데이터 전처리 == CRISP-DM의 데이터 이해
- 데이터 준비(Data Preparation)
- KDD의 데이터 변환 == CRISP-DM의 데이터 준비
- 모델링(Modeling)
- 데이터 분석 방법론, 머신러닝을 이용한 수행 모델을 만들거나 데이터를 분할하는 부분
- 모델링 기법 선택, 모델링 작성, 모델 평가
- 평가(Evaluation)
- 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
- 전개(Deployment)
✅ **분석 기획(Planning) 단계의 Task**
- 비즈니스 이해 및 범위 설정 : SOW(statement of work) 작성
- SOW : 작업기술서 또는 업무기술서
- SOW를 통해 프로젝트의 목적 달성을 위해서 해야 할 일에 대해 이해할 수 있음
- 일정, 원가, 품질에 대한 요구 사항 및 고객, 사용자들을 명시한 포괄적인 문서
- WBS(Work Breakdown Structure) 범위 기술서에 정의된 high level의 정보를 바탕으로 구체적인 업무 범위를 설정하는 것
- 프로젝트 정의 및 계획 수립 : WBS(work breakdown structure) 작성
- 프로젝트 위험 계획 수립 :
- 위험에 대한 대응 방법: 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)
✅ **데이터 준비(Preparing) 단계**
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
✅ **데이터 분석(Analyzing)** **단계**
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석(EDA)
- 모델링
- 모델 평가 및 검증
회고
빅데이터에 관한 많은 이야기를 포함하며 단순하게 외워야하는 것에 대한 아쉬움과 이해에 대한 필요를 느끼는 공북과정이였다.
복기도 중요하지만 이해가 필요하니 어려워 진다는 느낌이 강하게 들었다.
물론 강의를 해주시는 분들이계셔서 좀 이해가 쉬운것은 사실이다.