[2] 1-2 분석 방법론

jdsilver96·2022년 2월 19일
0

adsp

목록 보기
15/26

1. 분석 방법론 개요

가. 개요

나. 데이터 기반 의사결정의 필요성

기업의 합리적인 의사결정을 가로막는 장애요소
고정관념, 편향된생각, 프레이밍효과

다. 방법론의 생성과정

암묵지 -> (형식화) -> 형식지 -> (체계화) -> 방법론 -> (내재화) -> 암묵지
암묵지: 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식(공통화, 내면화)
형식지: 문서나 매뉴얼처럼 형상화된 지식(표출화, 연결화)

라. 방법론의 적용 업무의 특성에 따른 모델

  1. 폭포수모델
    단계를 순차적으로 진행하는 방법
  2. 프로토타입모델
    점진적으로 시스템을 개발해나가는 접근 방법(시험 사용 후, 사용자의 요구를 분석하거나 성능을 평가하여 그 결과를 통한 개선 작업을 시행하는 모델)
  3. 나선형모델
    반복을 통해 점증적으로 개발하는 방법
    처음 시도하는 프로젝트에 적용이 용이하지만, 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있음

마. 방법론의 구성

단계(단계별완료보고서) -> 태스크(보고서) -> 스탭(보고서구성요소)
단계: 최상위 계층으로서 프로세스 그룹을 통하여 완성된 단계별 산출물 생성, 버전관리 등을 통하여 통제
태스크: 단게를 구서하는 단위활동, 물리적/논리적 단위로 품질검토의 항목이 됨
스탭: WBS(Work Breakdown Structure)의 워크패키지에 해당되고, 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스

2. KDD(Knowledge Discovery in Database) 분석 방법론

가. 개요

데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정의된 데이터 마이닝 프로세스

나. KDD 분석 절차

Data - Target Data - Preprocessed Data - Transformed Data - Patterns
1) 데이터셋 선택: 비즈니스 도메인에 대한 이해 + 프로젝트 목표 설정
2) 데이터 전처리: 잡음, 이상치, 결측치 처리
3) 데이터 변환: 차원축소, 학습용/검증용 데이터 분류
4) 데이터 마이닝: 데이터마이닝 기법 선택, 전처리+변환프로세스 추가 실행
5) 데이터 마이닝 결과 평가: 결과에 대한 해석, 평가 + 분석 목적과의 일치성

3. CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론

가. 개요

나. CRISP-DM의 4레벨 구조

Phases -> Generic Tasks -> Specialized Tasks -> Process Instances
1. 최상위 레벨: 여러 단계로 구성되고 각 단계는 일반화 태스크(Generic Tasks)를 포함
일반화 태스크는 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 다시 구체적인 수행 레벨인 세분화 태스크로 구성
2. 데이터 정제라는 일반화 태스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 태스크로 구성
3. 프로세스 실행은 데이터 마이닝을 위한 구체적인 실행을 포함

다. CRISP-DM의 프로세스(6단계)

1. 업무이해: 업무 목적 파악, 상황파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
2. 데이터 이해: 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
3. 데이터 준비: 분석용 데이터셋선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅
4. 모델링: 모델링 기법 선택, 모델테스트계획설계, 모델작성, 모델평가
5. 평가: 분석결과 평가, 모델링과정 평가, 모델적용성 평가
6. 전개: 전개 계획 수립, 모니터링과 유지보수 계획수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

4. KDD와 CRIPS-DM의 비교

5. 빅데이터 분석 방법론

가. 빅데이터 분석의 계층적 프로세스

1) 단계: 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성
각 단계는 기준선으로 설정되어 관리되어야 하며, 버전관리 등을 통하여 통제가 이뤄져야 함
2) 태스크:
각 단계는 여러 개의 태스크로 구성, 각 태스크는 단계를 구성하는 단위 활동이며 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
3) 스텝: WBS(Work Breakdown Structure)의 워크퍁키지에 해당되고 입력자료, 처리 도구, 출력자료로 구성된 단위 프로세스임

나. 빅데이터 분석 방법론 - 5단계

1) 분석기획
비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험 계획 수립
2) 데이터 준비
필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검
3) 데이터 분석
분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증, 모델 적용 및 운영방안 수립
4) 시스템 구현
설계 및 구현, 시스템 테스트 및 운영
5) 평가 및 설계
모델 발전계획 수립, 프로젝트 평가 및 보고

다. 단계별 세부단계 및 실제 업무

  1. 분석 기획(Planning)
    • 비즈니스 이해 및 범위 설정
      - 비즈니스 이해: 비즈니스 이해 및 도메인 문제점
      - 프로젝트 범위 설정: 프로젝트 범위 정의서(SOW: Statement Of Work)
    • 프로젝트 정의 및 계획 수립
      - 데이터 분석 프로젝트 정의: 프로젝트 정의서, 모델운영 이미지 설계서, 모델 평가 기준
      - 프로젝트 수행 계획 수립: 프로젝트 수행계획서, WBS
    • 프로젝트 위험 계획 수립
      - 데이터 분석 위험 식별: 식별된 위험 목록
      - 위험 대응 계획 수립: 위험관리 계획서
  2. 데이터 준비(Preparing)
    • 필요 데이터 정의
      - 데이터 정의: 데이터 정의서
      - 데이터 획득방안 수립: 데잍어 획득 계획서
    • 데이터 스토어 설계
      - 정형 데이터 스토어 설계: 정형 데이터 스토어 설계서, 데이터 매핑 정의서
      - 비정형 데이터 스토어 설계: 비정형 데이터 스토어 설계서, 데이터 매핑 정의서
    • 데이터 수집 및 정합성 검정
      - 데이터 수집 및 저장: 수집된 분석용 데이터
      - 데이터 정합성 검증: 정합성 점검 보고서
  3. 데이터 분석
    • 분석용 데이터 준비
      - 비즈니스 룰 확인: 비즈니스 룰, 분석에 필요한 데이터 범위
      - 분석용 데이터 셋 준비: 분석용 데이터 셋
    • 텍스트 분석
      - 텍스트 데이터 확인 및 추출: 분석용 텍스트 데이터
      - 텍스트 데이터 분석: 텍스트 분석 보고서
    • 탐색적 분석
      - 탐색적 데이터 분석: 데이터 탐색 보고서
      - 데이터 시각화: 데이터 시각화 보고서
    • 모델링
      - 데이터 분할: 훈련용 데이터, 테스트용 데이터
      - 데이터 모델링: 모델링 결과 보고서
      - 모델 적용 및 운영 방안: 알고리즘 설명서, 모니터링 방안
    • 모델 평가 및 검증
      - 모델 평가: 모델 평가 보고서
      - 모델 검증: 모델 검증 보고서
  4. 시스템 구현
    • 설계 및 구현
      - 시스템 분석 및 설계: 시스템 분석 및 설계서
      - 시스템 구현: 구현 시스템
    • 시스템 테스트 및 운영
      - 시스템 테스트: 시스템 테스트 결과 보고서(품질)
      - 시스템 운영 계획(+교육실시): 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서
  5. 평가 및 전개
    • 모델 발전 계획 수립
      - 모델 발전 계획: 모델 발전 계획서
    • 프로젝트 평가 및 보고
      - 프로젝트 성과평가: 프로젝트 성과 평가서
      - 프로젝트 종료: 프로젝트 최종 보고서(프로젝트 지식 자산화)
profile
데이터사이언티스트(NLP)

0개의 댓글