1-2 데이터 분석 계획

김희영·2026년 4월 2일

빅데이터분석기사

목록 보기
3/3

1. 분석 방안 수립

1-1. 데이터 분석

데이터 분석의 현황 : 아직 초기단계로 분석 방법과 성과에 대한 이해 부족 문제

데이터 분석의 지향점

  • 전략적 통찰 없는 분석 배재
  • 일차원적 분석 지양
  • 전략 도출을 위한 가치 기반 분석 지향

데이터 분석에 대한 회의론 : 분석 솔루션 도입 후 활용 방법 미지수

데이터 분석 시 고려 사항 : 규모보다 시각과 통찰을 얻을 수 있는가의 문제


1-2. 데이터 분석 기획

분석 기획 특징

분석 기획 절차
비즈니스 이해 및 범위 설정 -> 프로젝트 정의
-> 프로젝트 수행 계획 수립 -> 프로젝트 위험 계획 수립

  • 분석 대상과 방법에 따른 분류 : 4가지 유형을 넘나들며 분석, 결과 도출 과정 반복
    • Optimization
    • Insight
    • Discovery
    • Solution
  • 목표 시점에 따른 분류
    • 단기적 접근 방식 (과제 중심적 접근)
    • 중장기적 접근 방식 (마스터 플랜 접근)
    • 혼합 방식 (분석 기획시)

분석 기획 시 필요 역량

  • 도메인 지식, 정보기술, 수학(통계)
  • 프로젝트 관리 역량, 리더십

분석 기획 시 고려사항

  • 사용가능한 데이터 확인
  • 적합한 사례 탐색
  • 발생 가능한 요소 고려

+) 데이터 분석 유형
- 설명 분석 : 기본 데이터 요약, 집계. 현재 발생 사실 설명
- 예측 분석 : 결과 가능성 파악용
- 진단 분석 : 데이터 간 인과/상관 관계 파악. 원인 분석
- 처방 분석 : 예측 되는 상황에 대한 대안 제시


1-2. 분석 마스터 플랜과 로드맵 설정

분석 마스터 플랜 :분석 과제의 전체적인 방향성 제시 계획

  • 분석 마스터 플랜 수립 절차 : 과제 정의 - 우선순위 결정 - 단기/중장기 분석 로드맵 수립
  • 정보 전략 계획(ISP) : 중장기 마스터 플랜 수립 절차.
    • 조직 내/외부 분석, 기회 및 문제점 도출
    • 사용자 요구사항 확인, 우선순위 결정

분석 과제 우선순위 평가 기준

  • IT 프로젝트의 과제 우선순위 평가 기준
    • 전략적 중요도
      • 전략적 필요성
      • 시급성
    • 실행 용이성
      • 투자 용이성
      • 기술 용이성
  • 데이터 분석 프로젝트의 우선순위 평가기준
    • 투자비용 요소
      • 데이터 크기
      • 데이터 형태
      • 데이터 속도
    • 비즈니스 효과
      • 새로운 가치

+) ROI요소 3V (Return Of Investment)
+) 크기+형태+속도 = 3V (가치까지 하면 4V)

  • 분석 ROI 요소를 고려한 과제 우선 순위 평가 기준
    • 시급성 (ROI의 비즈니스 효과) : 전략적 가치, 목표 가치
    • 난이도 (ROI의 투자비용 요소) : 데이터 획득/가공/저장/적용 비용, 분석 수준

분석 과제 우선순위 선정 및 조정

  • 포트폴리오 사분면 분석 기법 활용 : 난이도, 시급성을 기준으로 분석, 과제 유형을 사분면에 배치
난이도 / 시급성현재미래
어려움12
쉬움34
  • 매트릭스 내 분석과제 우선순위 선정
    • 우선순위가 시급성 : 3-4-1-2
    • 우선순위가 난이도 : 3-1-4-2
  • 매트릭스 내 우선 순위 조정 : 의사결정으로 우선순위 조정 가능
  • 우선순위 조정 시 고려사항 : 기술, 분석 범위

분석 로드맵 설정

  • 최종 실행 우선 순위 결정, 단계적 구현 로드맵 수립

  • 단계별 목표 정의, 내용 정렬

    • 데이터 분석 체계 도입 : 분석 기회 발굴, 과제 정의 , 마스터 플랜 수립
    • 데이터 분석 유효성 검증 : 분석 알고리즘 및 아키텍처 설계, 분석 과제 Pilot 수행
    • 데이터 분석 확산 및 고도화 : 프로세스 내제화, 변화 관리, 시스템 구축, 고도화
  • 세부 일정 계획 수립

    • 순차형 : 설계-구현-테스트
    • 반복형 : 설계 - 적용 - 테스트 를 반복

1-4. 분석 문제 정의

분석 문제 정의 개요

  • 분석 과제 도출 : 문제를 데이터 분석 문제로 변환
  • 과제 도출 방법
    • 상향식 : 문제 주어짐 -> 해법 찾기
    • 하향식 : 데이터 기반 문제 재정의 -> 해결 방안 탐색
    • 혼합 방식 : 수렴과 발산을 반복
      • 상향식 접근 방식의 발산 : 가능한 옵션 도출
        • 하향식 접근 방식의 수렴 : 도출된 옵션을 분석, 검증
  • 분석 과제 정의 : 과제 정의, 분석과제 정의서 작성 (추후 수행계획의 입력물이 됨)

하향식 접근 방식

문제가 주어지고, 해당 문제에 대한 해법을 찾는 과정

접근 방식 구성 : 문제 탐색 - 문제 정의 - 해결방안 탐색 - 타당성 평가

  • 문제 탐색 단계
    • 비즈니스 모델 기반 문제 탐색 : 비즈니스 모델 켄버스 블록을 단순화 하여 접근
    • 외부 참조 모델 기반 문제 탐색 : 유사한 환경에서 수행했던 사례 벤치마킹
    • 분석 유즈케이스 정의 : 문제에 대한 설명, 기대효과 면시 후 데이터 분석 문제로의 전환 및 적합성 평가에 사용
  • 문제 정의 단계
    • 식별된 비즈니스 문제를 데이터적 문제로 변환하여 정의
  • 해결방안 탐색 단계
    • 문제 해결 방안 탐색.
    • 기존 시스템 개선 활용, 요육 및 채용을 통한 역량 확보, 시스템 고도화, 전문 업체 소싱 등
  • 타당성 평가 단계
    - 경제적 타당성
    • 데이터 및 기술적 타당성

하향식 접근 방식의 문제 탐색 방법

  • 비즈니스 모델 캔버스를 활용한 과제 발굴
    • 비즈니스 모델 캔버스
        규제 / 감사
     ----------------
     업무 / 제품 / 고객	<- 문제 발굴
     ----------------
     지원 인프라 영역
  • 분석 기회 발굴 범위의 확장
    • 접근 관점
      • 거시적 : 사회, 기술, 경제, 환경, 정치
      • 경쟁자 확대 : 대체재, 경쟁자, 신규 진입자
      • 시장 니즈 탐색 : 고객, 채널, 영향자들
      • 역량 재해석 : 내부 역량, 파트너와 네트워크

상향식 접근 방식

  • 특징 : 왜 그런 일이 발생하는지 욕으로 추적하여 문제 도출
  • 등장 배경 : 하향식 접근 방식의 한계
  • 상향식 접근 기반 전통적 분석 사고 극복 방안
    • 디자인 사고 접근법 : 현장 관찰, 감정 이입, 대상관점으로의 전환 수행 (why, what)
    • 비지도학습 방법에 의한 수행 : 목표값 없이 데이터 자체로 결과 도출
    • 빅데이터 환경에서의 분석 : 인과관계 -> 상관관계 분석으로 이동
  • 문제 해결 방법
    - 프로토타이핑 접근법 : 분석 - 결과 확인 반복하며 개선

1-5. 데이터 분석 방안

분석 방법론

데이터 분석 시 품질 확보를 위한 단계별 수행 활동, 작업, 산출물 정의

  • 구성 요건 : 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물, 어느정도의 지식만 있으면 활용가능한 수준의 난이도

  • 생성 과정 : 형식화 - 체계화 - 내재화

    방법론 -내재화-> 암묵지 -형식화-> 형식지 -체계화-> **방법론 ...

계층적 프로세스 모델 구성
분석 방법론은 계층적 프로세스 모델 형태로 구성

  • 단계 (최상위 계층) : 완성된 단계별 산출물 생성
  • 태스크(중간 계층) : 단계를 구성하는 단위 활동
  • 스탭 (최하위 게층) : 입력 자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스. (WBS의 워크 패키지)

소프트웨어개발생명주기 활용하여 구성

  • 폭포수 모형 : 분석 - 설계 - 개발 - 구현 - 시험 및 유지보수
  • 프로토타입 모형 : 시스템 일부 구현 후 요구사항 반영 과정 반복
    • 실험적 프로토타입 : 요구분석 위해 일부를 개발하여 의사소통 도구로 활용
    • 진화적 프로토타입 : 요구분석 뿐 아니라 프로토타입을 지속적으로 진화하여 최종 S/W로 발전
  • 나선형 모형 : 계획수립 - 위험분석 -개발 - 고객평가 반복하며 점진적 개발
  • 반복적 모형 : 요구사항 중 일부를 반복적으로 개발하며 범위 확장
  • 진화형 모형 : 핵심부분 개발 후 구성 요소 지속적 발전

소프트웨어개발생명주기 모형 선정 기준

  • 프로젝트 규모, 성격
  • 개발 방법, 도구
  • 시간, 비용
  • 개발 과정의 통제수단과 산출물 인도 방식

KDD 분석 방법론

통계적 패턴, 지식 탐색용 프로파일링 기술 기반 데이터 마이닝 프로세스

  • KDD 분석 방법론의 9가지 프로세스
    • 분석 대상 비즈니스 도메인의 이해
    • 분석 대상 데이터셋 선택과 생성
    • 데이터 노이즈와 이상값 제거/정제 작업, 선처리
    • 목적에 맞는 변수 찾기, 필요시 차원 축소
    • 목적에 맞는 데이터 마이닝 기법 선택
    • 목적에 맞는 데이터 마이닝 알고리즘 선택
    • 데이터 마이닝 시행
    • 결과 해석
    • 발견된 지식 활용
  • KDD 분석 방법론의 분석 절차
    • 데이터셋 선택
    • 데이터 전처리
    • 데이터 변환
    • 데이터 마이닝
    • 결과 평가

CRISP-DM 분석 방법론

계층적 프로세스 모델로, 4계층으로 구성

  • CRISP-DM의 4계층
    - 최상위 레벨 : 여러 단계(task)로 구성
    • 일반화 태스크 : 데이터 마이닝의 단일 프로세스를 완전하게 수행
    • 세분화 태스크 : 일반화 태스크를 구체적으로 수행
    • 프로세스 실행 : 데이터 마이닝을 구체적으로 실행
  • CRISP-DM의 분석 절차
    • 업무 이해
    • 데이터 이해
    • 데이터 준비
    • 모델링
    • 평가
    • 전개

SEMMA 분석 방법론

SAS Istitute가 만든 기숭, 통계 중심 데이터 마이닝 프로세스 (모델링 중점)

  • SEMMA의 분석 절차
    • 추출
    • 탐색
    • 수정
    • 모델링
    • 평가

1-6. 빅데이터 분석 방법론

개요

  • 분석 방법론 구성 : 단계 - 태스크 - 스탭

    빅데이터 분석을 위한 단계
    분석 기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가 및 전개

+) 각 단계 별로 태스크와 스탭이 정의되어 있음

분석 기획

  • 비즈니스 이해 및 범위 설정
  • 프로젝트 정의 및 계획 수립
  • 프로젝트 위험 계획 수립

데이터 준비

  • 필요 데이터 정의
  • 데이터 스토어(저장) 설계
  • 데이터 수집 및 정합성 점검

데이터 분석

  • 분석용 데이터 준비
  • 텍스트 분석
  • 탐색적 분석
  • 모델링
  • 모델 평가 및 검증

시스템 구현

  • 설계 및 구현
  • 시스템 테스트 및 운영

**평가 및 전개

  • 모델 발전계획 수립
  • 프로젝트 평가 및 보고

1-7. 데이터 분석 거버넌스

데이터 분석 거버넌스 개요

  • 데이터 분석 업무를 기업문화로 정착, 지속적 고도화 위해 필요
  • 구성 요소
    • 데이터 분석 기획, 관리 조직
    • 과제 기획, 운영 프로세스
    • 분석 지원 인프라
    • 데이터 거버넌스(Data)
    • 교육 및 육성 체계(Hr)

데이터 분석 기획/관리 수행 조직

  • 집중형(전담 조직), 기능형(각 부서별 진행), 분산형(집중+기능) 등

데이터 분석 과제 기획과 운영 프로세스

  • 구성 : 과제발굴 - 과제 수행 및 모니터링
  • 특징 : 데이터 분석 문화 내재화로 경쟁력 확보 및 프로젝트 효율화
  • 프로세스
    - 과제 발굴 : 분석 Idea 발굴 - 분석 과제 후보 제안 - 분석과제 확정
    • 과제 수행 : 팀 구성 - 분석과제 실행 - 진행 관리 - 결과 공유/개선

데이터 분석 지원 인프라

  • 데이터 분석 플랫폼 구축 : 개별적으로 관리, 교환에서 분석 플랫폼을 통한 중앙집중적 관리
  • 구성 요소
    • 분석 서비스 제공 엔진
    • 분석 애플리케이션
    • 분석 서비스 제공 API
    • 데이터 처리 프레임워크
    • 분석 엔진 / 분석 라이브러리
    • 운영체제
    • 하드웨어

데이터 거버넌스

  • 거버넌스 체계 수립으로 데이터 중복 및 비표준화를 피하고, 프로젝트를 효과적으로 추진 가능

    데이터 거버넌스 : 전사 차원의 모든 데이터에 대해 정책, 지침, 표준화, 운영 조직, 책임의 표준화된 관리 체계 수립 및 운영 위한 프레임워크와 저장소 구축 행위

  • 관리 대상: 마스터 데이터(마스터 파일 구성 데이터), 메타데이터, 데이터 사전

  • 특징 : 데이터 가용성, 유용성, 통합성, 보안성, 안전성 확보

  • 빅데이터 거버넌스 : 데이터 거버넌스에 빅데이터의 특성을 고려해서 관리 체계 수립한 것

  • 데이터 거버넌스 구성요소 : 원칙(기준), 조직(역할, 책임), 프로세스(활동, 체계)

  • 데이터 거버넌스 체계 : 데이터 표준화 - 데이터 관리 체계 - 데이터 저장소 관리 - 표준화 활동 - 데이터 표준화...

    • 데이터 표준화 : 데이터 표준 용어 설정, 명명 규칙 수립, 메타 데이터 및 데이터 사전 구축, 데이터 관리 체계
    • 데이터 저장소 관리 : 메타/표준 데이터 관리용 전사 차원의 저장소 구성.
    • 표준화 활동 : 데이터 거버넌스 체계 구축 후 표준 준수 여부를 주기적 점검.

데이터 분석 교육 및 마인드 육성 체계

  • 데이터 분석 문화 도입방안 : 준비기 - 도입기 - 안정 추진기

1-8. 데이터 분석 수준 진단

개요

  • 분석 수준진단 필요성 : 데이터 분석의 도입 여부와 활용 위해 현 상태 점검 필요.
  • 분석 수준진단 목표 : 련재 수행하는 데이터 분석 수준 이해 및 미래 목표 수준 정의.
  • 분석 수준진단 프레임워크 : 분석 준비도, 분석 성숙도를 동시에 평가 가능

분석 준비도

조직 내 데이터 분석 업무 도입을 목적으로 현재 수준 파악 위한 진단 방법

  • 원리 : 6가지 영역으로 현재 수준 파악.
    -> 일정 수준 이상 충족시 도입, 아니면 환경 조성

  • 데이터 분석 준비도 프레임워크

    • 분석 업무 파악
    • 인력 및 조직
    • 분석 기법
    • 분석 데이터
    • 분석 문화
    • IT 인프라

분석 성숙도 모델

분석 능력 및 결과 활용에 대한 조직의 성숙도 주순 평가

  • 비즈니스 부문
    • 도입 단계 : 실적 분석 및 통계, 정기 보고 수행
    • 활용 단계 : 미래 예측
    • 확산 단계 : 전사 성과 실시간 분석, 프로세스 혁신 3.0, 분석규칙 관리
    • 최적화 단계 : 외부 환경 분석 활용, 최적화 업무 적용, 실시간 분석, 비즈니스 모델 진화
  • 조직/역량 부문
    • 도입 단계 : 일부 부석에서 수행, 담당자에 의존
    • 활용 단계 : 전문 부서 수행, 분석 기법 도입
    • 확산 단계 : 전사 모든 부서 수행, 분석 COE 조직 운영, 데이터 사이언티스트 확보
    • 최적화 단계 : 데이터 사이언스 그룹, 경영진 분석 활용 밒 전략 연계
  • IT 부문
    • 도입 단계 : 데이터웨어 하우스, 데이터 마트, ETL/EAI, OLAP
    • 활용 단계 : 실시간 대시보드, 통계 분석 환경
    • 확산 단계 : 빅데이터 관리 환경, 시뮬레이션 최적화, 분석 전용 서버
    • 최적화 단계 : 분석 협업 환경, 분석 Sandbox, 프로세스 내재화, 빅데이터 분석

분석 수준 진단 결과

  • 사분면 분석
    • 정착형 : 낮은 준비도, 높은 성숙도 (인력, 분석 업무, 기법 사용 중)
    • 확산형 : 높은 준비도, 높은 성숙도 (6가지 분석 구성 요소 있음)
    • 도입형 : 높은 준비도, 낮은 성숙도 (업무, 기법은 부족하나 적용 조직 같은 준비도가 높아 바로 도입 가능)
    • 준비형 : 낮은 준비도, 낮은 성숙도 (사전준비가 필요한 기업)

2. 분석 작업 계획

2-1. 분석 작업 개요

데이터 처리 프로세스

소스 - 수집 - 저장 - 처리 - 분석 - 표현
⌊___데이터 처리 영역____⌋   ⌊데이터 분석 영역⌋

데이터 처리 영역

  • 기초 데이터 정의, 수집, 저장, 분석 위한 물리적 환경 제공하는 영역
  • 단계
    • 데이터 소스
    • 데이터 수집
    • 데이터 저장
    • 데이터 처리

데이터 분석 영역

  • 저장된 데이터를 추출, 가공, 분석, 표현하는 영역
  • 데이터 분석 단계
    • 도메인 이슈 도출
    • 분삭 목표 수립
    • 프로젝트 계획 수립
    • 보유 데이터 자산 확인
  • 데이터 표현 단계
    • 빅데이터 분석 결과 시각화

2-2. 데이터 확보 계획

데이터 확보 위한 사전 검토 사항

  • 필요 데이터의 정의
  • 보유 데이터 현황
  • 분석 데이터 유형
  • 편향되지 않고 충분한 데이터 규모
  • 내부 데이터 사용 (개인정보 비식별 조치)
  • 외부 데이터 수집
  • 데이터 수집 방법 (FGI: 집단 면접. 다 같이 토론 하는 것)

분석용 변수 정의 단계

  • 데이터 수집 기획
  • 분석 변수 정의

분석 변수 생성 프로세스 정의 방법

  • fact 기반 문제 접근
  • 데이터 상관 분석
  • 프로토타입으로 분석 변수 접근

분석 변수 정제용 점검 항목 정의

  • 분석 변수 점검 필요성 : 문제 해결 및 활용 시나리오 적용으로 가치 창출
  • 점검 항목 정의
    • 데이터 수집 : 적정성, 가용성, 대체 분석 데이터 유무 확인
    • 데이터 적합성 : 중복, 변수 별 범위, 변수 간 연관성, 내구성 확인
    • 특징 변수 : 특징 변수 사용 가능성, 변수 간 결합 가능 여부 확인
    • 타당성 : 편익/비용 검증, 기술적 타당성 확인

생성된 분석 변수 전처리 방법 수립

  • 데이터 전처리 수행 : 데이터 정제 / 데이터 통합 / 데이터 축소 / 데이터 변환
  • 빅데이터 분석 프로세스 수행
  • 데이터 전처리 방안 수립
    • 정제 : 모순점 포착, 메타 데이터 확인
    • 통합/축소 : 데이터 통합
    • 변환 : 데이터 변환

생성 변수 검증 방안 수립

  • 분석 변수의 데이터 검증 방안 수립 : 정확성, 완전성, 적시성, 일관성 확인
  • 데이터 검증 체계 수립

2-3. 분석 절차와 작업 계획

분석 절차

  • 문제 인식, 데이터 확보, 분석, 결과 도출의 일반적인 과정을 정형화한 프로세스
  • 일반적인 분석 절차
    • 문제 인식
    • 연구조사
    • 모형화
    • 데이터 수집
    • 데이터 분석
    • 분석 결과 제시
  • 고려사항
    • 문제에 대한 구체적 정의 가능 / 필요 데이터 보유 / 분석 역량 보유 -> 전통적 데이터 분석 가능
    • 문제 정의 없음 -> 데이터 마이닝으로 진행

작업 계획

  • 분석 작업 계획 수립

    • 프로젝트 소요비용 배분
    • 프로젝트 작업분할구조 수립
    • 프로젝트 업무 분장 계획 및 배분
  • 분석 작업 계획 수립 위한 작업분할구조 (=WBS) 작성

    • 데이터 분석과제 정의
    • 데이터 준비 및 탐색
    • 데이터 분석 모델링 및 검증
    • 산출물 정리

분석목표정의서

  • 필요한 데이터의 정보, 분석 타당성 검토 및 성과 측정 방법 정리한 정의서
  • 분석목표정의서 구성요소
    - 원천데이터 조사 : 데이터 정보 / 데이터 수집 난이도
    • 분석 방안 및 적용 가능성 판단
    • 성과 평가 기준 : 정성적 / 정량적
  • 분석목표정의서 작성 방법 : 목표 설정, 세부 목표 수립 및 목표 수준 정리

2-4. 분석 프로젝트 관리

분석 프로젝트

과제 형태의 분석 기회를 프로젝트화 하여 그 가치를 증명하는 수단

  • 분석 프로젝트의 속성
    • 데이터 크기
    • 데이터 복잡도
    • 속도
    • 분석 모형 복잡도
    • 정확도와 정밀도 : 정확도=모형과 실제값 간 차이, 정밀도=반복시 일관성

분석 프로젝트 관리

  • 데이터분석의 기본 특징(5V)를 살려 관리 지침을 만들고 가이드로 사용

분석 프로젝트 주요 관리 항목

  • 범위관리
  • 일정관리
  • 원가관리
  • 품질관리
  • 통합관리
  • 조달관리(아웃소싱)
  • 인적자원관리
  • 위험관리
  • 의사소통관리
  • 이해관계자관리
profile
내는 반드시 엄청난 개발자가 되고 말것어

0개의 댓글