Chatper2. 데이터 분석 계획[2] - 분석 작업계획

Lim SeJin·2024년 8월 25일
0
post-custom-banner

1. 분석 작업 개요

데이터 영역

분석 작업 계획 수립을 위한 데이터 처리 프로세스

[ 데이터 소스 ⇒ 데이터 수집 ⇒ 데이터 저장 ⇒ 데이터 처리 ] ⇒ 데이터 처리 영역

[ ⇒ 데이터 분석 ⇒ 데이터 표현(시각화) ] ⇒ 데이터 분석 영역

데이터 분석 단계 - 도메인 이슈 추출 > 분석목표 수립 > 프로젝트 계획 수립 > 보유 데이터 자산 확인

데이터 확보 계획

  1. 데이터 확보를 위한 사전 검토사항

    • 필요 데이터 정의, 보유 데이터 현황 파악, 데이터 유형 파악, 편향X, 충분한 데이터, 내/외부데이터 고려
    • 데이터 수집 방법 : 실험, 관찰, 설문조사, 크롤링, SNS분석, 데이터베이스, 스크래퍼, FGI(집단면접)
  2. 분석에 필요한 변수 정의

    • 데이터 수집 기획, 분석 변수 정의
  3. 분석 변수 생성 프로세스 정의

    • 객관적 사실 기반의 문제 접근, 상관분석, 프로토타입을 이용한 접근
    • 프로토타입 >> 문제 인식수준을 확인, 필요 데이터 존재여부 확인, 가변성 검증
  4. 생성된 분석 변수의 정제를 위한 점검 항목 정의

    • 분석 변수 점검의 필요성, 분석 변수 점검항목 정의(검증 방법 기획)
    데이터 수집데이터 적정성, 데이터 가용성, 대체 분석 데이터 유무
    데이터 적합성데이터 중복, 분석 변수별 범위, 분석 변수별 연관성, 데이터 내구성
    특징 변수특징 변수 사용, 변수 간 결합 여부
    타당성편익/비용 검증, 기술적 타당성
  5. 생성된 분석 변수의 전처리 방법 수립

    • 데이터 전처리 수행 - 데이터 정제, 통합, 축소, 변환
    • 빅데이터 분석 프로세스 수행
    • 데이터 전처리 방안 수립 - 정제/통합/축소/변환
      • 정제 : 데이터 확인, 사용여부 확인, 범위, 결측치 등등 “확인”
      • 데이터 변환 - 노이즈 제거, 속성추가, 요약 작업, 정규화
  6. 생성 변수 검증 방안 수립

    [품질 관리 접근 방법]

    • 대량데이터 : 데이터 사용자 오류 무시. 치명적인 예외상황 탐지
    • 정밀 데이터 : 데이터 전체가 나타내는 의미를 중심으로 검증. 환경 및 상황에 따라 타당성 검증
    • 데이터 출처 불명확 : 목적/사전통제없이 생산된 데이터 품질 기준 정의

    [품질 검증 전략]

    • 정확성(Accuracy) : 사용 목적이 정확한가요?
    • 완전성(Completeness) : 필요한 데이터인가요?
    • 적시성(Timeliness) : 소멸성이 강한가요?
    • 일관성(Consistency) : 데이터의 사용목적에 따라 의미가 달라지나요?

분석 절차 & 작업 계획

분석 절차

분석 방법론을 구성하는 최소 요건, 추가 및 생략가능.

일반적인 분석 절차 : 문제인식 → 연구조사 → 모형화 → 데이터 수집 → 데이터 분석 → 분석 결과제시

분석 절차 시 고려사항 :

  • 분석역량을 가지고 있다면, 통계 기반의 전통적 데이터 분석을 수행할 수 있다.
  • 문제에 대한 구체적 정의가 없다면, 데이터 마이닝 기반, 인사이트 발굴 후 결과 기반 개선결과 도출

작업 계획

1) 분석 작업 계획 수립

프로젝트 소요비용 배분 ⇒ 프로젝트 작업분할구조 수립 ⇒ 프로젝트 업무 분장 및 배분

2) 분석 작업 계획 수립을 위한 WBS(Work Breakdown Structure) 작성

데이터 분석과제 정의 ⇒ 데이터 준비&탐색 ⇒ 데이터 분석 모델링/검증 ⇒ 산출물 정리

3) 분석 목표정의서

구성요소 : 원천데이터 조사, 분석방안 및 적용가능성판단, 성과 평가 기준

  • 정성적 평가 : 기법/기술/데이터 활용가능성, 집단 선정 등
  • 정량적 평가 : 증감 비율평가, 모형정확도 평가 등

분석 프로젝트 관리

분석 프로젝트 추가 속성

  • 데이터 크기, 데이터 복잡도, 속도, 분석 모형의 복잡도, 정확도/정밀도(과녁그림)

주요 관리 항목

범위 관리, 일정 관리, 원가 관리, 품질 관리, 통합 관리, 조달 관리, 인적자원관리, 위험관리, 의사소통관리, 이해관계자관리

(Scope, Time, Cost, Quality, Integration, Procurement, HumanResource, Risk, Communication, Stakeholder)


문제 풀이

22241 23122 34122 41233 4

오답노트

  1. 데이터 확보 계획 수립 시 분석변수 점검항목

    • 데이터 적정성, 가용성, 편익/비용 검증, 기술적 타당성, 대체분석 데이터 유무에 대한 확인 → 데이터 다양성X
  2. 빅데이터 품질지표 : 정확성/완전성/적시성/일관성

  3. 분석 작업 계획 수립 절차 : 프로젝트 소요비용배분 → 프로젝트 작업분할 구조수립 → 업무 분장 계획

  4. 데이터 분석과제 필요역량 : 도메인 이슈 도출역량, 분석목표 수립 역량, 프로젝트 계획수립 역량

  5. 분석목표정의서 구성요소 : 원천데이터 조사 → 분석 방안 및 적용 가능성 판단 → 성과 평가 기준

  6. 생성된 분석 변수 정제 점검항목 → 데이터 적합성

    • 데이터 중복, 변수범위, 변수 연관성, 데이터 내구성.
    • 이 때 변수간 결합 가능 여부는 특징변수관련 항목이다.
  7. 데이터 검증 체계 수립

    • 데이터 출처 명확? 관리대상 선별? 데이터 다양? 데이터는 충분? ⇒ 타당성은 검토 X
  8. 조달관리란?

    상황에 따라 외부에 아웃소싱. PoC와 같이 지속성이 보장되지 않은 프로젝트는 대여방식도 고려

profile
INTJ, Interested in Computer Vision
post-custom-banner

0개의 댓글