8월 23일

Yullgiii·2023년 8월 29일
0
post-thumbnail

2과목 데이터 분석 기획

1장 데이터 분석 기획의 이해

1절 분석 기획 방향성 도출

✅ **분석의 4가지 유형**
  • 최적화(Optimization) : 분석 대상 및 분석 방법을 이해하여 현 문제를 최적화의 형태로 수행
  • 솔루션(Solution) : 분석 대상을 알고 분석 방법을 모르는 경우, 솔루션을 찾는 방식으로 과제 수행
  • 통찰(Insight) : 분석 대상을 모르나 기존 분석 방식을 활용해 분석
  • 발견(Discovery) : 분석 대상 및 분석 방법을 모르는 경우, 발견을 통해 대상을 새로 선정
✅ **목표 시점별 분석 기획 방안**
  • 과제 중심적인 접근 방식의 특징
    • 목표 시점별로 당면한 과제를 빠르게 해결하는 방식
    • Speed & Test
    • Quick & Win
    • Problem Solving
  • 장기적인 마스터 플랜 방식의 특징
    - 지속적인 분석 문화 내재화
    - Accuracy & Deploy
    - Long Term View
    - Problem Definition
✅ **분석 기획시 고려사항**
  • 가용 데이터(Available Data)
    • 데이터의 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다.
      • e.g. 정형, 비정형, 반정형 데이터
  • 적절한 비지니스 유스케이스(Proper Business Use-Case) 탐색
    • 유사 분석 시나리오 및 솔루션이 있다면 이를 최대한 활용해야 한다.
  • 장애 요소들에 대한 사전 계획 수립(Low Barrier of Execution)
    - 일회성 분석으로 그치지 않고 조직의 역량을 내재화하기 위해서는 충분하고 계속적인 교육 및 활용 방안 등의 변화 관리(Change Management)가 고려되어야 한다.
✅ **데이터의 종류**
  • 정형 : ERP, CRM Transaction data, Demand Forecast 등
  • 반정형 : sensor, machine data, Competitor pricing 등
  • 비정형 : Email, SNS, voice, IoT, 보고서, news 등

2절 분석 방법론

✅ **분석 방법론의 구성 요소**
  • 차(Procedures)
  • 법(Methods)
  • 구와 기법(Tools&Techniques)
  • 플릿과 산출물(Templates&Outputs)
✅ **분석 방법론의 3가지 모델**
  • 폭포수모델
    • 단계를 순차적으로 진행, 이전 단계가 완료되어야 다음 단계로 순차 진행하는 하향식 진행
    • 문제점이 발견되면 전 단계로 돌아가는 피드백 수행
  • 프로토타입 모델
    • 사용자의 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법
    • 사용자들이 편하게 사용할 수 있을 것이라 예상되는 특정 가설을 생성하여 서비스를 설계하고 디자인에 대한 실험도 실행한다.
    • 프로토타입을 보고 완성시킨 결과물을 통해 가설을 확인할 수 있다.
    • 신속하게 해결책 모형 제시, 상향식 접근 방법이다.
    • 시제품이 나오기 전의 제품의 원형으로 개발 검증과 양산 검증을 거쳐야 시제품이 될 수 있다.
    • '정보시스템의 미완성 버전 또는 중요한 기능들이 포함되어 있는 시스템의 초기모델' 이다.
  • 나선형 모델
    - 반복을 통해 점증적으로 개발, 처음 시도하는 프로젝트에 적용이 용이하지만 반복에 대한 관리체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다.
✅ **KDD 분석 절차**
  • 데이터셋 선택(Selection) : 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정
  • 데이터 전처리(Preprocessing) : 데이터셋에 포함되어 있는 잡음(Noise)과 이상치(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거하거나 의미있는 데이터로 처리하는 데이터셋 정제 작업 단계
  • 데이터 변환(Transformation) : 분석 목적에 맞는 변수 선택, 데이터의 차원 축소
  • 데이터 마이닝(Data Mining) : 데이터의 패턴을 찾거나 데이터를 분류 또는 예측 등의 마이닝 작업 시행
  • 데이터 마이닝 결과 평가(Interpretation/Evaluation)
✅ **CRISP-DM 분석**
  • 업무 이해(Business Understanding)
    • 주요구성 : 업무 목적 파악 - 상황 파악 - 데이터 마이닝 목표 설정 - 프로젝트 계획 수립
  • 데이터 이해(Data Understanding)
    • KDD의 데이터셋 선택, 데이터 전처리 == CRISP-DM의 데이터 이해
  • 데이터 준비(Data Preparation)
    • KDD의 데이터 변환 == CRISP-DM의 데이터 준비
  • 모델링(Modeling)
    • 데이터 분석 방법론, 머신러닝을 이용한 수행 모델을 만들거나 데이터를 분할하는 부분
    • 모델링 기법 선택, 모델링 작성, 모델 평가
  • 평가(Evaluation)
    • 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
  • 전개(Deployment)
✅ **분석 기획(Planning) 단계의 Task**
  • 비즈니스 이해 및 범위 설정 : SOW(statement of work) 작성
    • SOW : 작업기술서 또는 업무기술서
      • SOW를 통해 프로젝트의 목적 달성을 위해서 해야 할 일에 대해 이해할 수 있음
      • 일정, 원가, 품질에 대한 요구 사항 및 고객, 사용자들을 명시한 포괄적인 문서
      • WBS(Work Breakdown Structure) 범위 기술서에 정의된 high level의 정보를 바탕으로 구체적인 업무 범위를 설정하는 것
  • 프로젝트 정의 및 계획 수립 : WBS(work breakdown structure) 작성
  • 프로젝트 위험 계획 수립 :
    - 위험에 대한 대응 방법: 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)
✅ **데이터 준비(Preparing) 단계**
  • 필요 데이터 정의
  • 데이터 스토어 설계
  • 데이터 수집 및 정합성 점검
✅ **데이터 분석(Analyzing)** **단계**
  • 분석용 데이터 준비
  • 텍스트 분석
  • 탐색적 분석(EDA)
  • 모델링
  • 모델 평가 및 검증

회고

빅데이터에 관한 많은 이야기를 포함하며 단순하게 외워야하는 것에 대한 아쉬움과 이해에 대한 필요를 느끼는 공북과정이였다.
복기도 중요하지만 이해가 필요하니 어려워 진다는 느낌이 강하게 들었다.
물론 강의를 해주시는 분들이계셔서 좀 이해가 쉬운것은 사실이다.

profile
개발이란 무엇인가..를 공부하는 거북이의 성장일기 🐢

0개의 댓글