1. 분석 방안 수립
1-1. 데이터 분석
데이터 분석의 현황 : 아직 초기단계로 분석 방법과 성과에 대한 이해 부족 문제
데이터 분석의 지향점
- 전략적 통찰 없는 분석 배재
- 일차원적 분석 지양
- 전략 도출을 위한 가치 기반 분석 지향
데이터 분석에 대한 회의론 : 분석 솔루션 도입 후 활용 방법 미지수
데이터 분석 시 고려 사항 : 규모보다 시각과 통찰을 얻을 수 있는가의 문제
1-2. 데이터 분석 기획
분석 기획 특징
분석 기획 절차
비즈니스 이해 및 범위 설정 -> 프로젝트 정의
-> 프로젝트 수행 계획 수립 -> 프로젝트 위험 계획 수립
- 분석 대상과 방법에 따른 분류 : 4가지 유형을 넘나들며 분석, 결과 도출 과정 반복
- Optimization
- Insight
- Discovery
- Solution
- 목표 시점에 따른 분류
- 단기적 접근 방식 (과제 중심적 접근)
- 중장기적 접근 방식 (마스터 플랜 접근)
- 혼합 방식 (분석 기획시)
분석 기획 시 필요 역량
- 도메인 지식, 정보기술, 수학(통계)
- 프로젝트 관리 역량, 리더십
분석 기획 시 고려사항
- 사용가능한 데이터 확인
- 적합한 사례 탐색
- 발생 가능한 요소 고려
+) 데이터 분석 유형
- 설명 분석 : 기본 데이터 요약, 집계. 현재 발생 사실 설명
- 예측 분석 : 결과 가능성 파악용
- 진단 분석 : 데이터 간 인과/상관 관계 파악. 원인 분석
- 처방 분석 : 예측 되는 상황에 대한 대안 제시
1-2. 분석 마스터 플랜과 로드맵 설정
분석 마스터 플랜 :분석 과제의 전체적인 방향성 제시 계획
- 분석 마스터 플랜 수립 절차 :
과제 정의 - 우선순위 결정 - 단기/중장기 분석 로드맵 수립
- 정보 전략 계획(ISP) : 중장기 마스터 플랜 수립 절차.
- 조직 내/외부 분석, 기회 및 문제점 도출
- 사용자 요구사항 확인, 우선순위 결정
분석 과제 우선순위 평가 기준
- IT 프로젝트의 과제 우선순위 평가 기준
- 데이터 분석 프로젝트의 우선순위 평가기준
+) ROI요소 3V (Return Of Investment)
+) 크기+형태+속도 = 3V (가치까지 하면 4V)
- 분석 ROI 요소를 고려한 과제 우선 순위 평가 기준
- 시급성 (ROI의 비즈니스 효과) : 전략적 가치, 목표 가치
- 난이도 (ROI의 투자비용 요소) : 데이터 획득/가공/저장/적용 비용, 분석 수준
분석 과제 우선순위 선정 및 조정
- 포트폴리오 사분면 분석 기법 활용 : 난이도, 시급성을 기준으로 분석, 과제 유형을 사분면에 배치
- 매트릭스 내 분석과제 우선순위 선정
- 우선순위가 시급성 : 3-4-1-2
- 우선순위가 난이도 : 3-1-4-2
- 매트릭스 내 우선 순위 조정 : 의사결정으로 우선순위 조정 가능
- 우선순위 조정 시 고려사항 : 기술, 분석 범위
분석 로드맵 설정
1-4. 분석 문제 정의
분석 문제 정의 개요
- 분석 과제 도출 : 문제를 데이터 분석 문제로 변환
- 과제 도출 방법
- 상향식 : 문제 주어짐 -> 해법 찾기
- 하향식 : 데이터 기반 문제 재정의 -> 해결 방안 탐색
- 혼합 방식 : 수렴과 발산을 반복
- 상향식 접근 방식의 발산 : 가능한 옵션 도출
- 하향식 접근 방식의 수렴 : 도출된 옵션을 분석, 검증
- 분석 과제 정의 : 과제 정의, 분석과제 정의서 작성 (추후 수행계획의 입력물이 됨)
하향식 접근 방식
문제가 주어지고, 해당 문제에 대한 해법을 찾는 과정
접근 방식 구성 : 문제 탐색 - 문제 정의 - 해결방안 탐색 - 타당성 평가
- 문제 탐색 단계
- 비즈니스 모델 기반 문제 탐색 : 비즈니스 모델 켄버스 블록을 단순화 하여 접근
- 외부 참조 모델 기반 문제 탐색 : 유사한 환경에서 수행했던 사례 벤치마킹
- 분석 유즈케이스 정의 : 문제에 대한 설명, 기대효과 면시 후 데이터 분석 문제로의 전환 및 적합성 평가에 사용
- 문제 정의 단계
- 식별된 비즈니스 문제를 데이터적 문제로 변환하여 정의
- 해결방안 탐색 단계
- 문제 해결 방안 탐색.
- 기존 시스템 개선 활용, 요육 및 채용을 통한 역량 확보, 시스템 고도화, 전문 업체 소싱 등
- 타당성 평가 단계
- 경제적 타당성
하향식 접근 방식의 문제 탐색 방법
규제 / 감사
----------------
업무 / 제품 / 고객 <- 문제 발굴
----------------
지원 인프라 영역
- 분석 기회 발굴 범위의 확장
- 접근 관점
- 거시적 : 사회, 기술, 경제, 환경, 정치
- 경쟁자 확대 : 대체재, 경쟁자, 신규 진입자
- 시장 니즈 탐색 : 고객, 채널, 영향자들
- 역량 재해석 : 내부 역량, 파트너와 네트워크
상향식 접근 방식
- 특징 : 왜 그런 일이 발생하는지 욕으로 추적하여 문제 도출
- 등장 배경 : 하향식 접근 방식의 한계
- 상향식 접근 기반 전통적 분석 사고 극복 방안
- 디자인 사고 접근법 : 현장 관찰, 감정 이입, 대상관점으로의 전환 수행 (why, what)
- 비지도학습 방법에 의한 수행 : 목표값 없이 데이터 자체로 결과 도출
- 빅데이터 환경에서의 분석 : 인과관계 -> 상관관계 분석으로 이동
- 문제 해결 방법
- 프로토타이핑 접근법 : 분석 - 결과 확인 반복하며 개선
1-5. 데이터 분석 방안
분석 방법론
데이터 분석 시 품질 확보를 위한 단계별 수행 활동, 작업, 산출물 정의
-
구성 요건 : 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물, 어느정도의 지식만 있으면 활용가능한 수준의 난이도
-
생성 과정 : 형식화 - 체계화 - 내재화
방법론 -내재화-> 암묵지 -형식화-> 형식지 -체계화-> **방법론 ...
계층적 프로세스 모델 구성
분석 방법론은 계층적 프로세스 모델 형태로 구성
- 단계 (최상위 계층) : 완성된 단계별 산출물 생성
- 태스크(중간 계층) : 단계를 구성하는 단위 활동
- 스탭 (최하위 게층) : 입력 자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스. (WBS의 워크 패키지)
소프트웨어개발생명주기 활용하여 구성
- 폭포수 모형 : 분석 - 설계 - 개발 - 구현 - 시험 및 유지보수
- 프로토타입 모형 : 시스템 일부 구현 후 요구사항 반영 과정 반복
- 실험적 프로토타입 : 요구분석 위해 일부를 개발하여 의사소통 도구로 활용
- 진화적 프로토타입 : 요구분석 뿐 아니라 프로토타입을 지속적으로 진화하여 최종 S/W로 발전
- 나선형 모형 : 계획수립 - 위험분석 -개발 - 고객평가 반복하며 점진적 개발
- 반복적 모형 : 요구사항 중 일부를 반복적으로 개발하며 범위 확장
- 진화형 모형 : 핵심부분 개발 후 구성 요소 지속적 발전
소프트웨어개발생명주기 모형 선정 기준
- 프로젝트 규모, 성격
- 개발 방법, 도구
- 시간, 비용
- 개발 과정의 통제수단과 산출물 인도 방식
KDD 분석 방법론
통계적 패턴, 지식 탐색용 프로파일링 기술 기반 데이터 마이닝 프로세스
- KDD 분석 방법론의 9가지 프로세스
- 분석 대상 비즈니스 도메인의 이해
- 분석 대상 데이터셋 선택과 생성
- 데이터 노이즈와 이상값 제거/정제 작업, 선처리
- 목적에 맞는 변수 찾기, 필요시 차원 축소
- 목적에 맞는 데이터 마이닝 기법 선택
- 목적에 맞는 데이터 마이닝 알고리즘 선택
- 데이터 마이닝 시행
- 결과 해석
- 발견된 지식 활용
- KDD 분석 방법론의 분석 절차
- 데이터셋 선택
- 데이터 전처리
- 데이터 변환
- 데이터 마이닝
- 결과 평가
CRISP-DM 분석 방법론
계층적 프로세스 모델로, 4계층으로 구성
- CRISP-DM의 4계층
- 최상위 레벨 : 여러 단계(task)로 구성
- 일반화 태스크 : 데이터 마이닝의 단일 프로세스를 완전하게 수행
- 세분화 태스크 : 일반화 태스크를 구체적으로 수행
- 프로세스 실행 : 데이터 마이닝을 구체적으로 실행
- CRISP-DM의 분석 절차
- 업무 이해
- 데이터 이해
- 데이터 준비
- 모델링
- 평가
- 전개
SEMMA 분석 방법론
SAS Istitute가 만든 기숭, 통계 중심 데이터 마이닝 프로세스 (모델링 중점)
1-6. 빅데이터 분석 방법론
개요
- 분석 방법론 구성 :
단계 - 태스크 - 스탭
빅데이터 분석을 위한 단계
분석 기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가 및 전개
+) 각 단계 별로 태스크와 스탭이 정의되어 있음
분석 기획
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험 계획 수립
데이터 준비
- 필요 데이터 정의
- 데이터 스토어(저장) 설계
- 데이터 수집 및 정합성 점검
데이터 분석
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델 평가 및 검증
시스템 구현
**평가 및 전개
1-7. 데이터 분석 거버넌스
데이터 분석 거버넌스 개요
- 데이터 분석 업무를 기업문화로 정착, 지속적 고도화 위해 필요
- 구성 요소
- 데이터 분석 기획, 관리 조직
- 과제 기획, 운영 프로세스
- 분석 지원 인프라
- 데이터 거버넌스(Data)
- 교육 및 육성 체계(Hr)
데이터 분석 기획/관리 수행 조직
- 집중형(전담 조직), 기능형(각 부서별 진행), 분산형(집중+기능) 등
데이터 분석 과제 기획과 운영 프로세스
- 구성 : 과제발굴 - 과제 수행 및 모니터링
- 특징 : 데이터 분석 문화 내재화로 경쟁력 확보 및 프로젝트 효율화
- 프로세스
- 과제 발굴 : 분석 Idea 발굴 - 분석 과제 후보 제안 - 분석과제 확정
- 과제 수행 : 팀 구성 - 분석과제 실행 - 진행 관리 - 결과 공유/개선
데이터 분석 지원 인프라
- 데이터 분석 플랫폼 구축 : 개별적으로 관리, 교환에서 분석 플랫폼을 통한 중앙집중적 관리
- 구성 요소
- 분석 서비스 제공 엔진
- 분석 애플리케이션
- 분석 서비스 제공 API
- 데이터 처리 프레임워크
- 분석 엔진 / 분석 라이브러리
- 운영체제
- 하드웨어
데이터 거버넌스
-
거버넌스 체계 수립으로 데이터 중복 및 비표준화를 피하고, 프로젝트를 효과적으로 추진 가능
데이터 거버넌스 : 전사 차원의 모든 데이터에 대해 정책, 지침, 표준화, 운영 조직, 책임의 표준화된 관리 체계 수립 및 운영 위한 프레임워크와 저장소 구축 행위
-
관리 대상: 마스터 데이터(마스터 파일 구성 데이터), 메타데이터, 데이터 사전
-
특징 : 데이터 가용성, 유용성, 통합성, 보안성, 안전성 확보
-
빅데이터 거버넌스 : 데이터 거버넌스에 빅데이터의 특성을 고려해서 관리 체계 수립한 것
-
데이터 거버넌스 구성요소 : 원칙(기준), 조직(역할, 책임), 프로세스(활동, 체계)
-
데이터 거버넌스 체계 : 데이터 표준화 - 데이터 관리 체계 - 데이터 저장소 관리 - 표준화 활동 - 데이터 표준화...
- 데이터 표준화 : 데이터 표준 용어 설정, 명명 규칙 수립, 메타 데이터 및 데이터 사전 구축, 데이터 관리 체계
- 데이터 저장소 관리 : 메타/표준 데이터 관리용 전사 차원의 저장소 구성.
- 표준화 활동 : 데이터 거버넌스 체계 구축 후 표준 준수 여부를 주기적 점검.
데이터 분석 교육 및 마인드 육성 체계
- 데이터 분석 문화 도입방안 : 준비기 - 도입기 - 안정 추진기
1-8. 데이터 분석 수준 진단
개요
- 분석 수준진단 필요성 : 데이터 분석의 도입 여부와 활용 위해 현 상태 점검 필요.
- 분석 수준진단 목표 : 련재 수행하는 데이터 분석 수준 이해 및 미래 목표 수준 정의.
- 분석 수준진단 프레임워크 : 분석 준비도, 분석 성숙도를 동시에 평가 가능
분석 준비도
조직 내 데이터 분석 업무 도입을 목적으로 현재 수준 파악 위한 진단 방법
분석 성숙도 모델
분석 능력 및 결과 활용에 대한 조직의 성숙도 주순 평가
- 비즈니스 부문
- 도입 단계 : 실적 분석 및 통계, 정기 보고 수행
- 활용 단계 : 미래 예측
- 확산 단계 : 전사 성과 실시간 분석, 프로세스 혁신 3.0, 분석규칙 관리
- 최적화 단계 : 외부 환경 분석 활용, 최적화 업무 적용, 실시간 분석, 비즈니스 모델 진화
- 조직/역량 부문
- 도입 단계 : 일부 부석에서 수행, 담당자에 의존
- 활용 단계 : 전문 부서 수행, 분석 기법 도입
- 확산 단계 : 전사 모든 부서 수행, 분석 COE 조직 운영, 데이터 사이언티스트 확보
- 최적화 단계 : 데이터 사이언스 그룹, 경영진 분석 활용 밒 전략 연계
- IT 부문
- 도입 단계 : 데이터웨어 하우스, 데이터 마트, ETL/EAI, OLAP
- 활용 단계 : 실시간 대시보드, 통계 분석 환경
- 확산 단계 : 빅데이터 관리 환경, 시뮬레이션 최적화, 분석 전용 서버
- 최적화 단계 : 분석 협업 환경, 분석 Sandbox, 프로세스 내재화, 빅데이터 분석
분석 수준 진단 결과
- 사분면 분석
- 정착형 : 낮은 준비도, 높은 성숙도 (인력, 분석 업무, 기법 사용 중)
- 확산형 : 높은 준비도, 높은 성숙도 (6가지 분석 구성 요소 있음)
- 도입형 : 높은 준비도, 낮은 성숙도 (업무, 기법은 부족하나 적용 조직 같은 준비도가 높아 바로 도입 가능)
- 준비형 : 낮은 준비도, 낮은 성숙도 (사전준비가 필요한 기업)
2. 분석 작업 계획
2-1. 분석 작업 개요
데이터 처리 프로세스
소스 - 수집 - 저장 - 처리 - 분석 - 표현
⌊___데이터 처리 영역____⌋ ⌊데이터 분석 영역⌋
데이터 처리 영역
- 기초 데이터 정의, 수집, 저장, 분석 위한 물리적 환경 제공하는 영역
- 단계
- 데이터 소스
- 데이터 수집
- 데이터 저장
- 데이터 처리
데이터 분석 영역
- 저장된 데이터를 추출, 가공, 분석, 표현하는 영역
- 데이터 분석 단계
- 도메인 이슈 도출
- 분삭 목표 수립
- 프로젝트 계획 수립
- 보유 데이터 자산 확인
- 데이터 표현 단계
2-2. 데이터 확보 계획
데이터 확보 위한 사전 검토 사항
- 필요 데이터의 정의
- 보유 데이터 현황
- 분석 데이터 유형
- 편향되지 않고 충분한 데이터 규모
- 내부 데이터 사용 (개인정보 비식별 조치)
- 외부 데이터 수집
- 데이터 수집 방법 (FGI: 집단 면접. 다 같이 토론 하는 것)
분석용 변수 정의 단계
분석 변수 생성 프로세스 정의 방법
- fact 기반 문제 접근
- 데이터 상관 분석
- 프로토타입으로 분석 변수 접근
분석 변수 정제용 점검 항목 정의
- 분석 변수 점검 필요성 : 문제 해결 및 활용 시나리오 적용으로 가치 창출
- 점검 항목 정의
- 데이터 수집 : 적정성, 가용성, 대체 분석 데이터 유무 확인
- 데이터 적합성 : 중복, 변수 별 범위, 변수 간 연관성, 내구성 확인
- 특징 변수 : 특징 변수 사용 가능성, 변수 간 결합 가능 여부 확인
- 타당성 : 편익/비용 검증, 기술적 타당성 확인
생성된 분석 변수 전처리 방법 수립
- 데이터 전처리 수행 : 데이터 정제 / 데이터 통합 / 데이터 축소 / 데이터 변환
- 빅데이터 분석 프로세스 수행
- 데이터 전처리 방안 수립
- 정제 : 모순점 포착, 메타 데이터 확인
- 통합/축소 : 데이터 통합
- 변환 : 데이터 변환
생성 변수 검증 방안 수립
- 분석 변수의 데이터 검증 방안 수립 : 정확성, 완전성, 적시성, 일관성 확인
- 데이터 검증 체계 수립
2-3. 분석 절차와 작업 계획
분석 절차
- 문제 인식, 데이터 확보, 분석, 결과 도출의 일반적인 과정을 정형화한 프로세스
- 일반적인 분석 절차
- 문제 인식
- 연구조사
- 모형화
- 데이터 수집
- 데이터 분석
- 분석 결과 제시
- 고려사항
- 문제에 대한 구체적 정의 가능 / 필요 데이터 보유 / 분석 역량 보유 -> 전통적 데이터 분석 가능
- 문제 정의 없음 -> 데이터 마이닝으로 진행
작업 계획
분석목표정의서
- 필요한 데이터의 정보, 분석 타당성 검토 및 성과 측정 방법 정리한 정의서
- 분석목표정의서 구성요소
- 원천데이터 조사 : 데이터 정보 / 데이터 수집 난이도
- 분석 방안 및 적용 가능성 판단
- 성과 평가 기준 : 정성적 / 정량적
- 분석목표정의서 작성 방법 : 목표 설정, 세부 목표 수립 및 목표 수준 정리
2-4. 분석 프로젝트 관리
분석 프로젝트
과제 형태의 분석 기회를 프로젝트화 하여 그 가치를 증명하는 수단
- 분석 프로젝트의 속성
- 데이터 크기
- 데이터 복잡도
- 속도
- 분석 모형 복잡도
- 정확도와 정밀도 : 정확도=모형과 실제값 간 차이, 정밀도=반복시 일관성
분석 프로젝트 관리
- 데이터분석의 기본 특징(5V)를 살려 관리 지침을 만들고 가이드로 사용
분석 프로젝트 주요 관리 항목
- 범위관리
- 일정관리
- 원가관리
- 품질관리
- 통합관리
- 조달관리(아웃소싱)
- 인적자원관리
- 위험관리
- 의사소통관리
- 이해관계자관리