[빅데이터분석기사] Part1 - CH 02. 데이터 분석 계획 (1)

조민수·2025년 7월 5일
0

빅데이터분석기사

목록 보기
2/13

Part 1. 빅데이터분석기획

Chapter 02. 데이터 분석 계획


Section 01. 데이터 분석 방안 수립

데이터 분석 : 대용량 Dataset으로부터 인사이트를 발굴, 공유해 의사결정 지원

  • 데이터 정의→수집→변환→모델링→시각화의 일련의 과정

데이터 분석의 지향점

  1. 전략적 통찰이 없는 데이터 분석의 배제
  2. 일차원적 데이터 분석 지양
  3. 전략 도출을 위한 가치 기반 데이터 분석을 통한 해당 사업의 중요 기회 발견

데이터 분석 시 고려사항

: 데이터 분석은 규모가 아니라 어떤 시각과 통찰을 얻을 수 있는지의 문제
: Data → Insight를 통한 성과 창출


데이터 분석 기획

  • 분석 수행 전, 과제 정의 및 결과 도출 방안을 계획

  • 분석 기획 절차
    : 비즈니스 이해, 범위 설정 → 프로젝트 정의 → 수행 계획 수립 → 위험 계획 수립

  • 분석 기획 특징

    1. 분석 대상 및 방법에 따른 4가지 구분
      1) 대상을 알고, 방식을 알고있음 : Optimization
      2) 대상을 모르나, 방식은 알고 있음 : Insight
      3) 대상은 알고있으나, 방식을 모름 : Solution
      4) 대상도 모르고, 방식도 모름 : Discovery

    2. 목표 시점에 따라
      1) 단기적 접근(과제중심적) : 당면한 과제를 빠르게 해결
      2) 중장기적 접근(마스터 플랜) : 전사적으로 장기적 관점에서 과제 도출
      3) 혼합 : 마스터 플랜 수립 → 빠른 과제 해결을 통한 가치 증명

  • 분석 기획 필요 역량

    • 도메인 지식, 정보 기술, 수학/통계적 지식
    • 프로젝트 관리 역량, 리더십
  • 분석 기획 시 고려사항

    1. 사용 가능한 데이터 확인
    2. 적합한 사례 탐색
    3. 분석 수행 시, 발생 가능 요소 고려
      : 시각화, 성능, 변화 관리 방안 등
  • 데이터 분석 유형

    • 설명 분석 : 주어진 데이터 요약 및 집계 (사실 그 자체)
    • 예측 분석 : 미래를 사전 예측, 결과의 가능성 파악
    • 진단 분석 : 인과관계, 상관관계 파악을 통한 원인 파악
    • 처방 분석 : 예측 상황에 대한 대안 도출 및 의사결정

분석 마스터 플랜 & 로드맵 설정

: 과제의 목적, 목표에 따라 전체적인 방향성 제시
: 데이터 분석 과제 정의 → 우선순위 결정(전략적 중요도, 비즈니스 성과, ROI, 실행용이성 등)
→ 단기/중장기 구분 → 분석 로드맵 수립

  • 빅데이터 특징을 고려한 분석 ROI 요소 : 4V

    1. 투자비용(3V) : Volume + Variety + Velocity
    2. 비즈니스 효과 : Value
  • 과제 우선순위 평가기준

    1. 시급성 : KPI → 비지니스 효과
    2. 난이도 : 비용 범위 측면 → 투자 비용 요소
  • 분석과제 우선순위 선정 및 조정

    1. 시급성 기준 : 3 → 4 → 1 → 2
    2. 난이도 기준 : 3 → 1 → 4 → 2
  • 분석 로드맵 설정
    : 분석과제 수행에 필요한 기준등을 담아 만든 종합적 계획
    : 데이터 분석 체계 도입 → 분석 유효성 검증 → 데이터 분석 확산 및 고도화
    : 데이터 수집/확보 → 분석 데이터 준비(순차적)
    → 모델링 단계 분석 모델 설계 → 분석모델 적용 → 분석모델 평가 (반복)


분석 문제 정의

  • 도출 방법

    1. 하향식 ↓ (Top Down) : 문제에 대한 해법 탐색
      : 데이터 분석 주제 유형 에서 1) Optimization & 3) Solution

    2. 상향식 ↑ (Bottom Up) : 데이터를 통한 문제 재정의 및 해법 탐색
      : 데이터 분석 주제 유형 에서 2) Insight & 4) Discovery

    3. 혼합 : 동적 환경에서 발산(Bottom Up), 수렴(Top Down) 반복적 수행

하향식 접근 방식 : Top Down

: 문제에 대한 해법 도출, 각 과정이 체계적(단계화)
: 문제 탐색 ▶ 문제 정의 ▶ 해결방안 탐색 ▶ 타당성 평가(과제 선정)

1. 문제 탐색

  • 전체적인 관점의 기준 모델(누락없이 문제를 도출 및 식별)
  • 문제 해결을 통해 발생하는 가치에 중점

문제 탐색 기법
1. 비즈니스 모델 기반 : 기업 내부
2. 외부 참조 모델 기반 : 기업 외부
3. 분석 Usecase 정의

문제 탐색 과정

  1. 비즈니스 모델 캔버스를 통한 과제 발굴
    : 9가지 비즈니스 모델 블록
    → 업무, 제품, 고객(문제 발굴 단위) + 규제&감사, 지원 인프라(관리)
  1. 분석 기회 발굴 범위 확장
    : 새로운 문제 발굴과 장기적 접근을 통한 환경/경쟁 구도 변화, 혁신적 분석 기회 추가 도출

2. 문제 정의

  • 비즈니스 문제 → 데이터적 문제로 전환
  • 최종 사용자 관점에서 정의

3. 해결방안 탐색

  • 분석 문제 해결을 위한 방안 모색
    1) 분석 역량 확보 & 기존 시스템 사용 : 기존 시스템 개선
    2) 분석 역량 확보X & 기존 시스템 사용 : 교육 및 채용을 통한 역량 확보
    3) 분석 역량 확보 & 시스템 신규 도입 : 시스템 고도화
    4) 분석 역량 확보X & 시스템 신규 도입 : 전문 업체 아웃소싱

4. 타당성 평가

  • 도출된 여러 대안 중 최선의 대안 선택
  • 비용 대비 편익 분석 관점(경제적 타당성)
  • 데이터 및 기술적 관점

결론

  • 하향식 접근은 솔루션 도출에 유효하나, 새로운 문제 탐색은 어렵다.
  • 복잡하고, 다양한 환경에서 발생하는 문제엔 부적합

상향식 접근 방식 : Bottom Up

: 문제 정의 자체가 어려운 경우, 데이터 기반으로 문제 재정의 → 해결방안 탐색
: 해당 일(사건)이 발생한 이유를 역추적하여 문제 도출
: 새로운 문제 탐색 및 복잡한 상황에서의 문제 해결

  • 디자인 사고 접근법(What 관점 접근)
    : 관찰 → 감정이입 → 관점 전환
    : 사물을 있는 그대로 인식

  • 비지도 학습에 의한 수행
    : 목표값에 대한 사전정의 X
    : 데이터 자체만으로 결과 도출

  • 빅데이터 환경에서의 분석
    : 인과관계 분석이 아닌 데이터 간 상관관계 분석

  • 프로토타이핑 접근법
    : 상향식 접근 방식의 문제 해결법
    : 분석 시도 → 결과 확인 → 반복적 개선
    : 신속한 모형 제시, 문제 명확화, 필요 데이터 식별 및 구체화
    : 사용자 요구사항 및 데이터 정의가 어렵고, 원천 데이터 불명확한 경우에 사용


데이터 분석 방안

1. 분석 방법론

: 데이터 분석을 효과적으로 수행하고자, 분석 결과를 체계적으로 정리
: 상세한 절차 + 방법 + 도구/기법 + 템플릿/산출물

분석 방법론 생성 과정

  • 암묵지, 형식지, 방법론으로 구성
    : 암묵지를 형식화 = 형식지
    : 형식지를 체계화 = 방법론
    : 방법론을 내재화 = 암묵지

2. 계층적 프로세스 모델 구성

PHASE ▶ TASK ▶ STEP

  • PHASE(단계)
    : 완성된 단계별 산출물 생성, 버전 관리 등으로 각 단계 통제

  • TASK
    : 단계를 구성하는 단위 활동, 물리적/논리적 단위의 품질 검토

  • STEP
    : WBS의 워크 패키지, 단위 프로세스

3. SDLC 활용

: 요구명세 ▶ 요구분석 ▶ 설계 ▶ 구현 ▶ 테스트 ▶ 유지보수

  • 모형 선정 기준
    : 프로젝트 규모 및 성격, 개발 방법/도구, 개발 소요 시간/비용, 산출물 등 고려

  • 모형
    : Waterfall, Prototype, Spiral, Iterative

4. KDD 분석 방법론

: 통계적 패턴, 지식 탐색에 활용 가능한 프로파일링 기반 데이터 마이닝 프로세스
: DB에서 지식을 발견하는 과정을 체계화

  • 데이터에서 패턴 탐색 과정 → 9 프로세스
    1. 분석 대상 비즈니스 도메인 이해
    2. Dataset 선택 및 생성
    3. Noise, Outlier 제거 (Preprocessing)
    4. 분석 목적에 맞는 변수 도출, 필요 시 차원 축소 진행
    5. Data Mining 기법 선택
    6. Data Mining 알고리즘 선택
    7. Data Mining 수행
    8. 결과 해석
    9. 지식으로 활용

KDD 분석절차
1. Dataset 선택
2. Data Preprocessing
: Noise, Outlier, 결측치 식별 및 제거, 대체
3. Data 변환
: 학습 / 검증용 데이터 분리
4. Data Mining
: 기법, 알고리즘 선택, 분석 수행
5. 결과 평가
: 결과 해석 = 분석 목적 (일치성 확인)

5. CRISP-DM 분석 방법론

: 4계층으로 구성된 Data Mining 계층적 프로세스 모델

  • 계층 구성
  1. 최상위 레벨(PHASE) : 여러 개의 Phase로 구성
  2. Generic Tasks : 데이터 마이닝의 단일 프로세스를 완전하게 수행
  3. 세분화 Tasks : 일반화 Task를 구체적 수행
  4. Process 실행 : 데이터 마이닝 작업을 구체적 수행

CRISP-DM 분석절차
1. 업무 이해
2. 데이터 이해
: 초기 데이터 수집/탐색/품질 확인
3. 데이터 준비
: 분석용 Dataset 선택/정제/통합/Formatting
4. 모델링
: 모델링 기법 선택, 테스트 계획 설계, 모형 작성 및 평가
5. 평가
6. 전개

  • CRISP-DM vs KDD
CRISP-DM 분석 방법론KDD 분석 방법론
업무 이해 (Business Understanding)-
데이터 이해 (Data Understanding)데이터셋 선택 (Selection)
데이터 전처리 (Preprocessing)
데이터 준비 (Data Preparation)데이터 변환 (Transformation)
모델링 (Modeling)데이터 마이닝 (Data Mining)
평가 (Evaluation)데이터 마이닝 결과 평가 (Interpretation/Evaluation)
전개 (Deployment)-

6. SEMMA 분석 방법론

: Sample, Explore, Modify, Model, Assess
: Data Mining 프로젝트의 모델링 작업 중점

SEMMA 분석절차
1. 추출(Sample)
: 통계적 추출, 조건 추출
2. 탐색(Explore)
: 그래프, Clustering, 상관 분석
3. 수정(Modify)
: 수량화, 표준화, 변환, 그룹화
4. 모델링(Model)
: Decision Tree, 로지스틱 회귀
5. 평가(Assess)
: 보고서, 피드백, 모델 검증


빅데이터 분석 방법론

: Application 개발을 위한 3계층(PHASE - TASK - STEP)

  • 개발 절차
    : 분석 기획 ▶ 데이터 준비 ▶ 데이터 분석 ▶ 시스템 구현 ▶ 평가 및 전개

1. 분석 기획

  1. 비즈니스 이해 및 범위 설정
    : 도메인 문제점 파악, 프로젝트 방향 설정, 명세서 작성

  2. 프로젝트 정의 및 계획 수립
    : 모형 평가 기준 설정, KPI/목표 수준 구체화, WBS 작성

  3. 프로젝트 위험 계획 수립
    : 위험 식별 및 사전 대응 방안 수립, 우선순위 설정

2. 데이터 준비

  1. 필요 데이터 정의
    : 내/외부 데이터 정의서 작성, 시스템 간 인터페이스 설정, 법적 이슈 고려

  2. Data Store 설계
    : 모든 형식 데이터 저장 가능, 논리적/물리적 설계

  3. 데이터 수집 및 정합성 검증
    : 크롤링, API, ETL, 품질 확보 및 품질 개선

3. 데이터 분석

  1. 분석용 데이터 준비
    : 데이터 범위 확인 및 구조화, 가공 단계

  2. 텍스트 분석
    : Data Store에서 필요 데이터 추출, 분석 모형 구축 (최종 모형)

  3. 탐색적 분석
    : Dataset에 대한 정합성 검토, 데이터 편성, 시각화

  4. 모델링
    : 학습/테스트 데이터 분할

  5. 모델 평가 및 검증
    : 모형의 완성도 평가(데이터 분석 목적 및 Dataset 특성에 따른 평가 방법 상이)

4. 시스템 구현

  1. 설계 및 구현
    : System Data Architecture & UI 설계
    : 모형 구현

  2. 시스템 테스트 및 운영

5. 평가 및 전개

  1. 모델 발전 계획 수립
    : 생명주기 설정, 모형의 계속성 확보, 유지보수/재구축 방안 마련

  2. 프로젝트 평가 및 보고

profile
Being a Modern Software Engineer

0개의 댓글