분석기획 방향성 도출
빅데이터 분석 방법론
빅데이터 분석 방법론은 대용량의 데이터를 분석하기 위해서 분석절차와 방법을 체계적으로 제시한 방법이다.
- 분석절차, 방법, 도구 및 기법, 분석단계별 탬플릿과 산출물을 정의한 것이다.
- 방법론은 품질확보를 위해서 각 단계별 수행해야 할 활동과 작업, 산출물을 정의 한 것이다.
빅데이터 분석 방법론의 등장
- 빅데이터 분석 방법론의 기본구조는 암묵지를 형식지화하고 다시 형식지를 체계화해서 방법론이 등장한 것이다.
-> 공통화, 표출화, 연결화, 내면화
빅데이터 분석 방법론의 적용 모델
- 폰포수 모델은 간단하고 순차적이며 프로토타이핑은 고객 요구사항 확인이 가능하다.
폭포수 모델(Waterfall Model)
- 각 단계를 완료하고 다음 단계를 진행할 수 있고 이전 단계로 되돌아 갈 수가 없다.
따라서 경험이 많고 위험이 낮은 업무에 적용한다.
폭포수 모델 특징
- 하향식 접근, 순차적 모델
- 표준화된 양식과 문서중심 프로세스
- 정형화된 산출물을 가장 중요시 하는 모형
- 간단하며 고전적인 모형
문제점
- 사용자 요구사항에 대한 반영과 확인 어려움
- 단계별 완전성으로 인하여 불필요한 문서작업이 많음
- 개발 도중에 변경에 대한 처리가 어려움
프로토타이핑 모델
- 프로토타이핑 모델은 고객 요구사항 수집 후 프로토타입을 먼저 만들고 고객에게 확인 후에 개발하는 모델이다.
프로토타이핑 모델의 장점
- 사용자 요구사항 도출이 용이
- 시스템에 대한 이해가 용이하고 소프트웨어 품질이 향상
- 개발자와 사용자 간에 의사소통 원활
- 개발 타당성 확인
- 실행 가능한 프로토타입을 통해서 확인
단점
- 프로토타입을 최종 완성품으로 오인
- 기대심리를 유발하여 과다한 요구사항 혹은 변경이 발생
- 비경제적, 중간 단계 산출물 문서화가 어려움
반복 점증형 모델
반복형 점증형 모델은 규모가 큰 빅데이터 사업에 적용해야 하는 모델이다.
요구사항 -> 분석 -> 설계 -> 구현 -> 테스트를 반복적으로 개발하는 모델
- 반복 수행 후에 만들어지는 소프트웨어에 대해서 버전을 추가하듯이 개발한다.
즉, 점증적으로 소프트웨어를 완성시켜 나간다.
반복 점증형 모델의 장점
- 반복이 거듭될수록 사업자의 능력 향상
- 위험이 높은 업무부터 먼저 개발하여 위험을 낮춤
반복 점증형 모델의 활용
- 규모가 큰 개발에 적합
- 시스템 간에 통합을 수행하는 프로젝트
- 위험이 높은 프로젝트
나선형 모델
- 위험이 높은 개발 사업에 적용하는 모델
- 폭포수, 프로토타이핑 모델이 통합된 모델, 반복적으로 개발하는 모델
- 반복적으로 위험분석을 수행하여 위험을 관리한다.
나선형 모델 단계별 활동
-
계획 및 목표 설정
- 프로젝트 타당성 검토, 고객 요구사항 분석, 프로젝트 수행여부를 결정, 프로젝트 각 단계별 특정 목표 수립
-
위험 분석
- 위험을 식별하고 위험에 대한 대응전략을 수립
- 위험을 초기에 식별하고 해결하여 프로젝트의 위험을 최소화
-
개발 및 검증
- 개발하려는 소프트웨어에 맞는 소프트웨어 생명주기모형을 선택
- 선택한 모형에 따라 소프트웨어를 개발
-
고객평가 및 다음 단계 수립
위 과제에서 어떤 빅데이터 분석 방법론이 존재하는지 살펴보았고 이제 빅데이터 과제를 어떻게 발굴하는지 살펴보자
분석과제 발굴
분석과제 발굴
분석과제 도출 방법은 하향식 접근 방법과 상향식 접근방법이 있다.
하향식 접근법(Top Down Approach)
하향식 접근법은 비즈니스 모델기반, 외부참조 모델기반, 분석 유즈케이스 정의가 있다.
- 비즈니스 모델 기반
- 업무 관점에서 기업의 외부환경 및 내부환경 변화를 분석하여 고객, 업무, 제품 단위로 문제를 발굴
- 비즈니스 모델 캔버스를 사용해서 사업영역을 분석
- 외부 참조모델 기반
- 기업 벤치마킹을 통해서 산업별, 업무 서비스별로 문제를 탐색한다.
- 문제탐색을 위해서 워크숍에서 브레인스토밍을 수행하여 많은 아이디어를 도출한다.
- 업종과 관련없이 분석 테마 후보그룹을 미리 정의 정의할 수 있고 쉽고 빠르게 도출할 수 있는 장점이 있다.
- 분석 유즈케이스 정의(이벤트 반응분석)
- 발굴된 분석을 평가하고 핵심부분을 발견한다.
- 사용자의 업무를 모델로 한 것으로 이벤트를 발생시키고 이벤트에 따라서 수행하는 유즈케이스를 모델링한 것이다.
① 문제 탐색 단계
- 비즈니스 모델기반
- 기업의 비즈니스 모델 분석, 제품단위로 문제를 발굴
- 외부참조 모델기반
- 유사업, 동종기업의 사례를 벤치마킹 해서 업무별, 산업별로 문제를 발굴
- 분석유즈케이스 정의
- 문제에 대한 상세한 설명과 문제를 해결할 경우의 효과를 명시해서 문제를 발굴
② 문제 정의 단계
- 특정문제를 수행하기 위해서 필요한 데이터와 분석기법을 정의한다.
- 신규 고객창출이라는 비즈니스 문제가 발굴되었으면 고객 유입에 영향을 줄 수 있는 요인을 분석하여 분석문제로 변환한다.
③ 해결방안 탐색 단계
- 분석문제를 해결하기 위한 방법을 탐색하는 단계로 시스템 개선, 교육 및 채용을 통한 역량 확보, 전문기업에 아웃소싱 등을 할 수 있다.
④ 타당성 검토 단계
- 경제적 타당성을 검토한다.
- 데이터 및 기술적 타당성을 검토한다.
상향식 접근법(Bottom Up Approach)
① 원천 데이터 분석
- 다양한 원천 데이터를 분석하여 여러 가지 비즈니스 문제를 도출하는 과정
- 데이터를 역추적하는 방법을 사용
- 장바구니 분석, 군집분석, 상관관계 분석 등을 수행
② 프로토타이핑 접근
- 사용자의 요구사항 파악이 어렵고 데이터 소스 파악이 어려운 경우 프로토타입을 활용하여 분석을 시도한다.
- 프로토타이핑 접근을 반복적으로 수행하면서 개선해 나간다.
분석 방법론
KDD분석 방법론
KDD(Knowledge Discovery in Database)는 프로파일링 기술을 사용해서 데이터로부터 통계적인 패턴이나 지식을 발견하기 위해서 정리한 데이터마이닝 프로세스이다.
① 데이터 선정
- 프로젝트 목표에 맞는 원시 데이터 분석
- OLTP와 DW를 분석하여 필요한 원시 데이터를 선정
- OLTP
- 하나의 단위 프로세스를 실행하는 트랜젝션을 말한다.
- ** 기업에서 업무를 실시간으로 처리하는 시스템으로 계정계라고도 말한다.
- 회원관리, 항공기예약, 도서구매, 인터넷 뱅킹 등이 있다.
- Data Warehouse(DW, 데이터웨어하우스)
- OLTP시스템에서 데이터를 추출, 정제, 적재하여 구축한 통합된 데이터베이스
- 주제지향적, 통합적, 비휘발성, 읽기전용의 특성을 가지고 있고 정보계라고도 한다.
- 데이터 마트를 사용한 OLAP 분석, 데이터마이닝, BI 등에 활용된다.
② 데이터 전처리
- 데이터에 포함되어 있는 잡음, 이상치, 결측지를 파악하고 제거하는 작업
- 추가적인 데이터가 필요한 경우 데이터 선정을 다시 실행한다.
- 전처리의 핵심은 데이터를 분석을 수행하기 위해서 데이터를 정제하는 것이다.
- 전처리과정
- 변수확인 > 원시데이터 확인 > 결측값 처리 > 이상값 처리
③ 데이터 변환
- 데이터 분석 목적에 맞게 데이터를 변환한다.
- 학습용 데이터와 검증용 데이터를 분리
- 데이터 변환 과정
- 표준화 및 정규화
- 정규분포화
- 범주화
- 개수축소
- 이상값 처리
- 시그널 데이터 압축
④ 데이터마이닝
- 데이터마이닝 기법을 선택하고 관련 알고리즘을 최적화 시켜서 실행할 수 있는 데이터마이닝 도구를 선택한다.
- 학습용 데이터를 활용하여 예측과 설명이라는 데이터 마이닝을 수행한다.
⑤ 해석 및 평가
- 데이터마이닝 분석과정에서 발견된 오류를 확인하고 모형을 평가한다.
- 데이터마이닝 분석결과를 해석하고 평가해서 비즈니스 도메인에 활용한다.
- 비즈니스 변화에 따라서 반복적으로 데이터마이닝을 수행하여 지식경영에 활용한다.
데이터마이닝과 딥러닝의 차이
데이터마이닝은 데이터분석을 통해서 비즈니스에 응용하는데 그 목적이 있고 딥러닝은 정확한 값을 예측하는데 목적이 있다.
CRIPS-DM 분석 방법론
CRoss Industry Standard Process for Data Mining
IBM에서 개발한 데이터마이닝 방법론이고 비즈니스 요구사항에 맞게 데이터마이닝을 반복적으로 수행하는 라이프 사이클이다.
초보자 및 전문가 모두가 사용할 수 있는 포괄적인 데이터마이닝 프로세스 이다.
CRIPS-DM 특징
- 비즈니스 문제 인식 및 해결을 위한 데이터마이닝 프로세스이다.
- 데이터 탐색 및 이해, 데이터를 통한 문제인식과 해결을 한다.
- 데이터마이닝 기법을 적용하고 데이터마이닝 결과를 해석한다.
CRIPS-DM 라이프 사이클
① 비즈니스 이해
- 프로젝트를 이해하고 비즈니스 관점에서 데이터마이닝 수행을 위해서 계획을 수립한다.
② 데이터 이해
- 데이터마이닝을 위해서 데이터를 수집하고 데이터 품질을 확인해야한다.
- 데이터에서 통찰력을 발견하고 숨겨진 의미를 가정하여 새로운 데이터를 이해한다.
③ 데이터 준비
- 데이터를 수집하고 데이터 변환 및 정제를 수행한다.
- 데이터의 테이블, 속성 등을 분석하고 기록한다.
④ 모델링
- 다양한 데이터마이닝 기법을 사용하여 데이터마이닝을 수행한다.
⑤ 평가
- 최종 배포를 진행하기 위해서 데이터 분석 모델을 평가한다.
빅데이터 분석 방법론
3계층 빅데이터 분석 방법론
3계층 구조
- 단계
- 방법론에서 각 단계는 빅데이터 분석을 하기 위한 절차를 의미
- 각 단계는 고객에게 인도될 산출물인 기준선을 설정하고 기준선의 완성여부와 품질을 관리
- 테스크
- 테스크는 각 단계별로 수행해야 하는 일을 의미
- 단계별 작업으로 작업이 완료되면 작업에 대한 성과가 나온다.
- 스텝
- 1 ~ 2주 내에 완료 가능한 산출물을 의미하는 Work Package이다
- input -> tools -> output 으로 만들어지는 단위 프로세스
5계층 빅데이터 분석 방법론
① 분석 기획
- 프로젝트의 목표를 정의하고 실제로 수용할 작업을 정의하기 위해 범위를 확정한다.
- 범위를 확정하기 위해서 제안욘청서, 기술협상서, 인터뷰 등을 수행
- 고객에게 인도될 산출물이 기준선이 된다.
- 분석기획 활동
- 비즈니스 이해 및 범위설정
- 프로젝트 정의 및 계획
- 프로젝트 위험관리 계획
② 데이터 준비
- 프로젝트를 성공하기 위해서 비즈니스 요구사항을 파악, 필요한 데이터 정의
- 데이터 준비를 위해 ETL을 수행
- 데이터 준비 활용
- 필요한 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
- ETL(Extract Transform Load)
- 데이터를 추출, 정제, 적재하기 위한 기법과 관련 도구를 의미, 원하는 데이터를 정의하고 추출해서 원하는 형태로 변환 후 적재하는 과정
③ 데이터 분석
- 데이터 스토어에 저장된 정형 데이터 및 비정형 데이터를 분석하고 데이터 셋을 준비
- 데이터 분석 활용
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델링 평가 및 검증
- 모델 적용 및 운영 방법
④ 시스템 구현
- 분석모델을 정보시스템에 적용하기 위해서 시스템을 개발하거나 변경하는 단계
- 정보시스템에 적용하기 위해서 사전에 프로통타이핑 기법 등을 활용할 수 있다.
- SDLC단계를 사용해서 정보시스템에 적용한다.
- 시스템 구현 활동
- 설계 및 구현
- 시스템 테스트 및 운영
⑤ 데이터 평가 및 전개
- 개발된 분석 모델과 소프트웨어를 평가하고 프로젝트 목표를 달성했는지를 확인한다.
- 프로젝트의 성과는 평가지표를 활용해서 정량적으로 평가한다.
- 데이터 평가 및 활동
분석 프로젝트 관리방안
분석 프로젝트 관리영역
① Data Size, 데이터 크기
- 빅데이터는 대규모 데이터에 대해서 데이터 분석을 수행한다.
- NoSQL기반의 빅데이터 데이터베이스는 대규모 데이터를 보유하고 있으므로 이에 대한 관리방법이 필요하다.
- Kilo, Mega, Giga, Tera, Peta, Exa, Zetta, Yotta
② Data Complexity, 데이터 복잡도
- 빅데이터 분석은 데이터베이스, 데이터 웨어하우스, 데이터 마트에 있는 정형 데이터만을 분석 대상으로 하지 않고 로그파일, 이미지, 텍스 등의 비정형 데이터도 분석 대상으로 하고 있다.
③ Speed, 속도
- 비즈니스 변화의 속도가 빠르게 변화하고 있고 비즈니스 변화에 따라서 많은 양의 데이터가 발생한다.
- 따라서 실시간 데이터까지도 분석할 수있는 분석모델이 고려되어야 한다.
④ Analitic & Complexity, 분석과 복잡도
- 분석모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 문제가 있다.
- 분석과 복잡도는 트레이드 오프 관계이다.
⑤ Accuracy & Precision, 정확도와 정밀도
- 정확도는 실제 값과의 차이를 측정하고 정밀도는 분석모델을 반복적으로 수행할 경우 편차의 수준에 일관성이 있는 것을 의미한다.
- 정확도, 분석모델이 실제 값과 차이가 적다는 의미
- 정밀도, 분석모델을 반복적으로 수행해도 편차가 작다는 의미
- 평향 : 예측값들과 정답이 멀리 떨어져 있으면 편향이 높다고 한다.
- 분산 : 예측값들이 자기들끼리 멀리 흩어져 있으면 분산이 높다고 한다.
분석 프로젝트 관리방안
- 빅데이터 관리 방법은 PMBOK의 프로젝트 관리영역을 기반으로 만들어졌다.
이것은 범위, 일정, 원가, 품질 등을 통합적으로 관리할 수 있는 프로세스를 말한다.
- 빅데이터 분석 프로젝트 관리 영역
- 범위
- 분석기획 단계에서 빅데이터 분석에 필요한 데이터의 범위와 양, 분석 알고리즘을 협의해서 프로젝으 범위를 확정해야 한다.
- 일정
- 빅데이터 분석은 반복적으로 수행하기 때문에 프로젝트 시간을 많이 소모할 수가 있다.
- 원가
- 빅데이터 분석을 위해서 외부 데이터를 수집해야 하는 경우는 프로젝 비용을 증가시킬 수 있다.
- 품질
- 프로젝트 품질은 품질관리 계획, 품질보증, 품질통제로 구성
- 인력
- 빅데이터 분석 프로젝트에 투입되는 인력에 대한 관리가 필요
- 의사소통
- 빅데이터 분석 결과에 대해서 프로젝트 이해관계자와 공유할 수 있도록 의사소통 채널을 공식화학도 관리
- 위험관리
- 빅데이터 분석 프로젝트에서 발생할 수있는 위험을 식별, 위험분석, 대응방안을 수립해야 한다.
- 분석결과가 품질목표를 달성하지 못할 수가 있기 때문에 프로젝트 초기부터 완료까지 지속적이고 반복적인 위험관리를 해야한다.
- 구매조달
- 이해관계자
- 비즈니스 전문가, 데이터 전문가, 분석 전문가, 시스템 전문가 등을 참여시키고 관리한다.
- 통합
- 프로젝트 관리 프로세스를 통합적으로 관리한다.