3주차

Suhyeon Lee·2024년 10월 8일
0

데이터 분석 기획

  • 시험의 2과목에 해당
    • 암기할 부분이 많음(이해를 바탕으로 암기하면 BEST)
    • 과락 조심
    • 다회독 필수
    • 디테일에 신경쓰기
  • 컨설팅 회사나 기업에서 분석 프로젝트를 수행하기 위해 의사결정자를 설득할 때 필요한 과정을 학습
    • 방법론
    • 프로세스
    • 실제 비즈니스에서 분석하고자 하는 분석 과제 정의하는 방법
    • 마스터플랜 확정 방법

수업 목표

  • 데이터 분석을 기획함에 있어 중요한 요소와 접근 방식에 어떤 것들이 있는지 학습

01. 데이터 분석 기획

분석 기획의 정의와 특징

1. 분석 기획의 정의

  • 분석 기획이란 실제 분석을 수행하기 전, 분석을 수행할 과제의 정의 및 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업을 의미
  • 어떠한 목표(What)를 달성하기 위하여 어떠한 데이터를 가지고 어떠한 방식(How)으로 수행할지에 대한 일련의 계획을 수립하는 중요한 사전작업

2. 분석 기획의 특징

  • 데이터 사이언티스트의 요구 역량인 수학/통계학적 지식, 분석 도구인 데이터 및 프로그래밍 기술, 해당 비즈니스에 대한 이해와 전문성에 대한 고른 역량과 시각 등이 요구됨

3. 분석 대상과 방법에 따른 4가지 분석 주제 ★

  • 최적화: 해결해야 할 문제, 분석 대상이 무엇인지 알고 분석 방법도 알고 있음
  • 솔루션(해결책): 분석 대상이 무엇인지 알고 있지만 방법을 모를 때 → 해결책을 찾아야 함
  • 발견: 분석 대상이 무엇인지 모르고 분석 방법도 모른다면, 분석 대상 자체를 새롭게 도출해야 함
  • 통찰력: 분석 대상이 무엇인지 모르지만 분석 방법은 알고 있을 때 필요

4. 분석 시점별 분석 기획 ★

  • 당면한 과제를 언게 해결해야 하는가에 따라 두 가지로 나눔:
    • 과제 중심적 접근 방식(과제 단위; 당면한 분석 주제의 해결)
      • 과제를 빠르게 해결해야 하는 경우
      • 1차 목표: Speed & Test
      • 과제 유형: Quick & Win
      • 접근 방식: Problem Solving(문제 해결을 위한 단기적인 접근 방식)
    • 장기적인 마스터플랜 방식(마스터 플랜 단위; 지속적 분석 문화 내재화)
      • 지속적인 분석 내재화를 위한 경우
      • 1차 목표: Accuracy & Deploy
      • 과제 유형: Long Term View
      • 접근 방식: Problem Definition(분석 과제 정의를 위한 중장기적인 마스터 플랜 접근 방식)

분석 기획 시 고려사항 3가지 ★

  1. 가용 데이터(Available Data)
  • 분석의 기본이 되는 데이터가 확보될 수 있는지에 대한 고려가 필요
  • 분석을 위한 데이터 확보가 우선이며 데이터 유형에 따라 분석 방법이 다르기 때문에 데이터 유형에 대한 분석이 선행적으로 이루어져야 함
  1. 적절한 유스케이스(Proper Business Use Case)와 활용방안 탐색
  • "바퀴를 재발명하지 마라"는 격언처럼 기존에 잘 구현되어 활용하고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용해야 함
  1. 분석과제 수행을 위한 장애요소에 대해 사전 계획 수립(Low Barrier Of Execution)
  • 분석을 수행할 때 발생 가능한 장애요소에 대한 사전 계획 수립 필요
  • 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리(Change Management)가 고려되어야 함

💡 참고하면 좋은 내용 👀
데이터의 유형

유형정형 데이터반정형 데이터비정형 데이터
특징- 형태가 있으며 연산 가능- 형태가 있으며 연산 불가능- 형태가 없으며 연산 불가능
- 데이터 자체로 분석 가능- 주로 파일로 저장됨- 주로 NoSQL에 저장됨
- 데이터로 분석이 가능하지만 해석이 불가능하며, 메타정보를 활용해야 해석 가능- 데이터 자체로 분석 불가능
예시관계형 데이터베이스, 스프레드시트, CSVXML, HTML, JSON, 로그형태 (웹로그, 센서데이터) 등소셜데이터(페이스북, 트위터), 영상, 이미지, 텍스트(word, PDF등)

02. 분석 방법론

  • 분석 수행을 체계적으로 할 수 있는 방법론

개요

글로벌 경쟁 환경에서 살아남기 위해 최근 기업들은 경쟁력을 갖추기 위해 데이터 분석의 중요성이 강조되고 있습니다. 데이터 분석이 효과적으로 기업 내 정착하기 위해서는 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론이 필수적입니다. 데이터 분석 프로젝트는 개인의 역량 혹은 우연한 성공에 기인해서는 안 되고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야 합니다.

방법론의 구성 ★

  1. 상세한 절차(Procedure)
  2. 방법(Methods)
  3. 도구와 기법(Tools & Techniques)
  4. 템플릿과 산출물(Templates & Outputs)
  • 여러 방법론을 통해 분석을 진행할 경우 경험과 감에 따른 의사결정이 아니라 데이터 기반의 의사결정을 해야 함

기업의 합리적인 의사결정을 가로막는 방해요소 ★

  1. 고정 관념 (Stereotype)
  2. 편향된 생각 (Bias)
  3. 프레이밍 효과 (Framing Effect): 동일한 사건이나 상황을 두고 개인의 판단이나 선택이 달라질 수 있는 현상

분석 방법론의 생성 과정

  • 일반적으로 방법론의 생성 과정은 개인의 암묵지가 조직의 형식지로 발전하는 형식화 과정을 거치고, 이를 체계화하여 문서화한 최적화된 형식지로 전개됨으로써 방법론이 만들어짐
  • 이렇게 만들어진 방법론은 다시 개인에게 전파되고 활용되는 내재화 과정을 거쳐 암묵지로 발전

분석 방법론이 적용되는 업무 특성에 따른 모델 ★

  • 분석 방법론은 적용되는 업무의 특성에 따라 다양한 모델을 가질 수 있음
  • 대표적인 모델 4가지
  1. 폭포수 모델 (Waterfall Model)
  • 단계를 거쳐 순차적으로 진행되는 방법
  • 이전 단계가 완료되어야 다음 단계로 진행 가능한 하향식 방향
  • 문제 및 개선사항이 발견될 경우 바로 이전 단계로 돌아가 피드백 과정을 수행
  1. 프로토타입 모델 (Prototype Model)
  • 폭포수 모델의 단점을 보완 → 점진적으로 시스템을 개발해 나가는 접근 방식
  • 고객의 요구를 완전히 이해하지 못하는 경우 적용
  • 일부분을 먼저 개발하여 사용자에게 제공하고 이후 사용자의 요구를 분석, 정당성 점검, 성능을 평가하여 결과를 통해 개선 작업 시행
  1. 나선형 모델 (Spiral Model)
  • 반복을 통해 점진적으로 개발하는 방법(A→B→C→D→A→B→…)
  • 프로토타입 모델과 유사하지만 사용자의 요구보다 위험요소를 사전에 제거한다는 것에 초점을 맞춤
  • 처음 시도하는 프로젝트에는 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못하면 복잡도가 상승
  1. 계층적 프로세스 모델
  • 일반적으로 분석 방법론은 계층적 프로세스 모델의 형태로 구성
  • 최상의 계층인 몇 개의 단계로 구성되어 있고 하나의 단계는 여러 개의 태스크로 구성되고 하나의 태스크는 여러 개의 스텝으로 구성되어 있음 (보통 5단계 사용)
  • 스텝은 WBS(Work Breakdown Structure)의 워크패키지에 해당되며 ‘입력 자료, 처리 및 도구, 출력’으로 구성된 단위 프로세스임
명칭특징
단계 (Phase)프로세스 그룹을 통해 완성된 단계별 산출물 생성, 버전 관리 등을 통한 통제 필요
태스크 (Task)단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
스텝 (Step)WBS의 워크패키지에 해당하고 입력 자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스

전통적인 분석 방법론 두 가지 ★★

KDD(Knowledge Discovery in Database) 분석 방법론 ★

  • 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
  • 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 시각화 등에서 응용 가능한 구조를 가지고 있음
  • KDD 분석 방법론 프로세스: 순서와 단계별 구성 중점으로 암기
    1. 데이터셋 선택
      • 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수
      • 데이터베이스에서 분석에 필요한 데이터를 선택하는 단계 (타깃 데이터 생성)
    2. 데이터 전처리
      • 추출된 분석 대상용 데이터 셋에 포함되어 있는 잡음(Noise), 이상치(Outlier), 결측치(Missing value)를 파악하여 제거하거나 의미 있는 데이터로 재가공
      • 추가로 요구되는 데이터 셋이 있다면 데이터 선택 프로세스 재실행
    3. 데이터 변환
      • 데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소
      • 데이터마이닝 프로세스 진행을 위해 데이터셋 변경
    4. 데이터 마이닝
      • 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계
      • 필요에 따라 데이터 전처리와 프로세스 추가 실행
    5. 해석과 평가
      • 데이터마이닝 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성 확인
      • 발견한 지식을 업무에 활용하기 위한 방안 마련
      • 필요에 따라 데이터 선택 프로세스에서 데이터마이닝 프로세스를 반복 수행

CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론 ★

  • 1999년 유럽연합에서 발표된 계층적 프로세스 모델
  • KDD 분석 방법론과 비슷하나 조금 더 세분화되어 있다는 것이 차이점
  • 단계, 일반화 태스크, 세분화 태스크, 프로세스 실행의 4개 레벨과 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개의 6단계로 구성
  • 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있음
  • CRISP-DM 분석 방법론 프로세스
    1. 업무 이해
      • 프로젝트의 목적과 요구사항을 이해하기 위한 단계
      • 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획 수립
      • 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
    2. 데이터 이해
      • 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계
      • 데이터 품질에 대한 문제점을 식별하고 숨겨진 인사이트를 발견
      • 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
    3. 데이터 준비
      • 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계
      • 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
    4. 모델링
      • 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
      • 모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있으며 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합 문제를 확인
      • 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
    5. 평가
      • 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계
      • 데이터마이닝 결과를 최종적으로 수용할 것인지 판단
      • 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
    6. 전개
      • 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계
      • 모델에 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영모델의 평가기준에 따라 생명주기(Life Cycle)가 다양하므로 상세한 전개 계획이 필요
      • 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
  • KDD와 비교했을 때 CRISP-DM만이 가지는 특징
    1. '이해'가 들어감
    2. 단계 간 피드백
    • 업무 이해 ↔ 데이터 이해 상호 피드백
    • 데이터 준비 ↔ 모델링 상호 피드백

빅데이터 분석 방법론

  • 빅데이터를 분석하기 위한 방법론은 계층적 프로세스 모델
    • 단계, 태스크, 스텝 3계층 레벨과 5단계로 구성
  • 5개의 단계들을 프로세스 그룹이라고 하며, 각 단계는 여러 개의 태스크로 구성되어 있음
  • 각 태스크는 물리적 또는 논리적으로 품질 검토의 항목이 될 수 있으며, 마지막 계층인 스텝은 입력자료, 출력 및 도구, 출력자료 등으로 구성된 단위 프로세스들

빅데이터 분석 방법론의 계층적 프로세스

  • 단계
  • 테스크
  • 스텝

빅데이터 분석 방법론 5단계 플로우 ★

  • 분석 기획
  • 데이터 준비
  • 데이터 분석

  • 시스템 구현 → 필요 시 수행한다는 점 주의(반드시는 아님)
  • 평가 및 전개

빅데이터 분석 방법론 단계별 수행 프로세스

키워드 위주로
SOW, WBS → 분석 기획

  • 프로젝트 위험계획 수립
    • 위험의 우선순위
    • 회피, 전이, 완화, 수용
      2단계 페이즈 데이터 스토어 설계
      탐색적 분석 EDA
      특징 파악

테스크: 모델링 ☆

03. 분석 과제 발굴

04. 분석 프로젝트 관리

기출 문제 내용 정리

  • 분석 기획 시 고려사항 3가지: 가용한 데이터, 적절한 유스케이스, 분석과제 수행을 위한 장애요소
  • 분석 대상과 방법에 따른 4가지 분석 주제: 최적화, 솔루션(해결책), 발견, 통찰력
  • 데이터 기반 의사결정을 방해하는 요소: 고정관념, 편향된 생각, 프레이밍 효과
  • 빅데이터 분석 방법론의 데이터 분석 단계에서 수행하는 주요 태스크
    • 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증
  • CRISP-DM 방법론의 데이터 준비 단계에서 수행하는 태스크
    • 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
  • 분석 프로젝트 관리 방안
    • 통합(Integration), 이해관계자(Stakeholder), 범위(Scope), 자원(Resource), 시간(Time), 원가(Cost), 리스크(Risk), 품질(Quality), 조달(Procurement), 의사소통(Communication)의 10개의 주제 그룹
  • 분석 과제 관리를 위해 고려해야 할 주요 5가지 속성
    • 데이터의 양, 데이터 복잡도, 분석의 속도, 분석 복잡도, 정확도 및 정밀도
profile
2 B R 0 2 B

0개의 댓글