[Data Analysis] 데이터 분석 방법론

송아지·2024년 9월 25일

Data Analysis

목록 보기
1/10

1. CRISP-DM

  • 데이터를 통한 비즈니스 문제 해결 방법론

1-1. Business Understanding - 가설 수립

  • 문제를 정의하고 요인을 파악하기 위해 가설을 수립
  • 가설 수립 절차
    • 해결해야 할 문제 파악(y)
    • y를 설명하기 위한 요소 파악(x)
    • 가설 구조 정의(x(요인)->y(목표))

1-2. Data Understanding

  • 데이터 원본 식별 및 취득
  • 데이터 종류
    • 존재하는 데이터
      • 원본 그대로 사용 가능
      • 가공 시 사용 가능
    • 존재하지 않는 데이터
      • 취득 가능 데이터
      • 취득 불가능한 데이터
  • 데이터 분석
    • EDA(Exploratory Data Analysis)
      • 시각화를 통한 개별 데이터 분포 파악
      • Na, 이상치 파악
    • CDA(Confirmatory Data Analysis)
      • 가설 검정을 통한 데이터 파악

1-3. Data Preparation

  • 모델링에 대한 데이터 준비
  • 모델링에 사용할 데이터 조건
    • 모든 셀에 값이 존재
    • 모든 값은 숫자데이터
    • (필요 시) 값의 범위 일치
  • 수행 내용
    • 결측치 처리
    • 가변수화
    • 스케일링
    • 데이터 분할

1-4. Modeling

  • 데이터로부터 패턴을 찾는 과정
  • 오차를 최소화 하는 패턴을 가진 모델 생성
  • 학습 데이터와 ML 알고리즘 필요

1-5. Evaluation

  • 모델에 대한 데이터 분석 목표와 비즈니스 목표 달성에 대한 평가
  • 테스트 데이터를 통하여 모델 평가
  • 비즈니스 기대가치 평가

1-6. Deployment

  • 프로젝트 결과물 최종 확정
  • 품질 유지 기준을 정하고 모니터링 계획 수립
  • 시스템 유효성 검사, 프로젝트 이전 수행
  • 데이터 수집부터 모델 배포 관리까지 파이프라인으로 구성
profile
데이터 분석가&엔지니어를 희망하는 취준생

0개의 댓글