[ADP] 데이터 분석 기획의 이해

hyelimchoi1223·2021년 7월 5일
0

[Study] ADP

목록 보기
5/5

데이터 분석 기획의 이해

분석 과제 발굴

풀어야 할 다양한 문제를 발굴해 데이터 분석 문제로 변환하고 관계자들이 이해하고 프로젝트를 수행할 수 있는 과제정의서 형태로 도출.

분석 과제 도출 방식
1. 하향식 접근 방법
2. 상향식 접근 방법

실제로는 혼용되어 사용하고, 최적의 의사결정은 두 접근 방식이 상호 보완 관계에 있을 때 가능.
ex) 디자인 사고

하향식 접근법

  • 분석 과제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정을 단계적으로 수행하는 방식
  • 분석적으로 사물을 인식하려는 'why'관점에서 접근

1. 문제 탐색 단계

  • 전체적인 관점의 기준 모델을 활용해 빠짐없이 문제 도출 및 식별이 중요
  • 문제를 해결함으로 발생하는 가치에 중점
  • 기업 내,외부 환경을 포괄하는 비즈니스 모델과 외부 참조 모델이 존재.

비즈니스 모델 기반 문제 탐색


[비즈니스 모델 캔버스]

비즈니스 모델 캔버스의 9가지 블럭을 단순화 해서 문제를 탐색.

1. 업무

운영하고 있는 내부 프로세스 및 주요 자원 관련 주제 도출
ex) 생산 공정 최적화, 재고량 최적화

2. 제품

제품 및 서비스를 개선하기 위한 주제 도출
ex) 제품의 주요 기능 개선

3. 고객

제품 및 서비스를 제공받는 관점에서 주제 도출
ex) 영업점 위치 최적화

4. 규제 & 감사

제품 생산 및 전달과정 프로세스 중에서 발생하는 규제 및 보안 관점에서 주제 도출
ex) 제공 서비스 품질의 이상 징후 관리, 새로운 환경 규제 시 예상되는 제품 추출

5. 지원 인프라

시스템 영역 및 운영, 관리하는 인력의 관점에서 주제 도출
ex) 적정 운영 인력 도출

분석 기회 발굴의 범위 확장


현재 사업에 적용되고 있는 관점을 넘어 새로운 관점의 접근을 위해 새로운 유형의 분석 기회 및 주제를 발굴해야 한다.

1. 거시적 관점

조직 및 산업에 폭넓게 영향을 미치는 사회, 경제적 요인. STEEP로 요약
기업이 통제할 수 없는 영역.

2. 경쟁자 확대 관점

경쟁자, 대체재, 신규 진입자 등 위협이 될 수 있는 상황에 대한 관점으로 분석 기회 발굴

  • 대체재 : 탐색 및 잠재적 위험 파악
    ex) 오프라인 제공 서비서 -> 온라인 제공에 대한 탐색 및 잠재적 위협 파악
  • 경쟁자 : 제품, 서비스의 주요 경쟁자에 대한 동향 파악 후 그것을 고려해 분석
  • 신규 진입자 : 동향 파악

3. 시장 니즈 탐색

사업의 직접적인 고객 및 접촉하는 역할을 하는 채널과 의사결정에 영향을 미치는 영향자들에 대한 관점으로 분석 기회 탐색

  • 고객 : 고객의 입장에서 깊게 이해하여 제품 및 서비스 개선에 필요한 분석 기회를 도출
  • 채널 : 영업사원, 직판 대리점 등 자체적으로 운영하는 채널 및 최종 고객에게 전달하는 것이 가능한 경로를 파악해 채널별로 분석 기회 탐색
  • 영향자 : 기업의 의사결정에 영향을 주는 주주, 투자자 등 이패 관계자의 주요 관심사항에 대해 파악하고 분석 기회 탐색

4. 역량 재해석

현재 조직이 보유한 역량과 비즈니스에 영향을 끼치는 파트너 네트워크를 포함해 폭넒은 분석 시회를 탐색

  • 내부 역량 : 지적 재산권, 기술력 등 기본적인 것 뿐 아니라 노하우와 인프라적인 유형의 자산에 대해 재해석하고 해당 영역에 분석 기회를 탐색
  • 파트너와 네트워크 : 밀접한 관계를 유지하고 있는 관계사와 공급사 등 역량을 활용해 수행할 수 있는 기능을 파악 및 분석 기회를 도출

외부참조 모델기반 문제탐색


  • 유사, 동종 사례 벤치마킹을 통해 분석 기회 발굴.
  • 분석 테마 그룹(pool)을 통해 필요한 분석기회에 대한 아이디어를 얻고, 기업에 적용할 분석 테마 후보 목록을 브레인 스토밍을 통해 빠르게 도출.
  • 평상시 지속적인 조사와 데이터 분석으로 가치를 발굴하고 그 사례를 정리해 pool로 만들어 둔면 과제 발굴 및 탐색 시 빠르고 의미있는 분석 기회 도출이 가능.

분석 유즈 케이스


도출한 분석 기회들을 구체적인 과제로 만들기 전에 분석 유즈 케이스로 표기하는 것이 필요하다.
분석 유즈 케이스는 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로
향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용된다.

2. 문제 정의 단계

  • 비즈니스 문제를 데이터 문제로 변환해 정의하는 단계.
  • 목적을 달성하기 위해 필요한 데이터 및 기법을 정의
  • 데이터 분석 문제의 정의 및 요구사항 : 해당 문제가 해결되었을 때 효용을 얻을 수 있는 최종 사용자 관점에서 이루어져야 한다.
  • 데이터 분석 문제가 잘 정의되어 있어야 하기 때문에 정확하게 분석의 관점으로 문제를 재정의할 필요가 있다.

ex) '고객 이탈의 증대' -> '고객 이탈에 영향을 미치는 요인을 식별하고 이탈 가능성 예측'

3. 해결 방안 탐색

'문제 정의 단계'에서 정의된 데이터 분석 문제를 해결하기 위한 방안 모색.

분석 역량을 가지고 있는지 파악하고, 보유하고 있지 않은 경우 교육이나 전문 인력 채용으로 역량을 확보하거나,
분석 전문 업체를 활용해 과제를 해결하는 방안에 대해 사전 검토를 수행해야 한다.

4. 타당성 검토

과제화하기 위해서는 다각적인 타당성 분석이 수행되어야 한다.

  1. 경제적 타당성
    • 비용대비 편익 분석 관점의 접근이 필요.
    • 비용 항목 : 데이터, 시스템, 인력, 유지보수 등
    • 편익 : 분석 결과를 적용함으로써 추정되는 실질적 비용 절감, 추가적 매출과 수익 등 경제적 가치
  2. 데이터 및 기술적 타당성
    • 데이터 존재 여부, 분석 시스템 환경 그리고 분석 역량이 필요.
    • 분석 역량의 경우 걸림되는 경우가 많아 기술적 타당성 분석시 역량 확보 방안을 사전에 수립해야 한다.

이런 타당성 검토를 통해 도출된 대안을 통해
1. 평가 과정을 거쳐 가장 우월한 대안을 선택한다.
2. 도출한 데이터 분석 문제 및 선정된 솔루션 방안을 포함한다.
3. 분석과제 정의서의 형태로 명시하는 후속 작업을 시행한다.
4. 프로젝트 계획의 입력물로 활용

하향식 접근법의 한계

  • 주어진 문제를 해결하는데에는 적합하지만 새로운 문제의 탐색에는 한계가 있다.
  • 복잡하고 다양한 환경에서 발생하는 문제에는 적합하지 않다. 이를 해결하기 위해 스탠포드 대학의 d.school에서는 디자인 사고 접근법을 통해 극복하려 했다.
  • 분석적으로 사물을 인식하는 'Why'는 우리가 알고있다고 가정하는 것이기에 답을 미리 내는 것이 아닌 사물을 있는 그대로 인식하는 'What' 관점에서 보아야 한다.

디자인 사고

디자인 사고란, 인간을 관찰하고 공감하여 소비자를 이해한 뒤, 다양한 대안을 찾는 확산적 사고와, 주어진 상황에 최선의 방법을 찾는 수렴적 사고의 반복을 통하여 혁신적 결과를 내는 창의적 문제 해결 방법이다.

  1. 공감
  2. 문제 정의
  3. 해결을 위해 아이디어 도출
  4. 시제품 제작
  5. 사용자 테스트

상향식 접근법

  • 원천 데이터를 대상으로 분석을 수행하여 가치있는 모든 문제를 도출하는 과정
  • 상관 관계 분석 또는 연관 분석을 통해 다양한 문제 해결
  • 빅데이터 분석의 주요 번화는 인관관계 분석 -> 상관관계 분석

비지도 학습과 지도 학습의 비교

비지도 학습

  • 일반적으로 상향식 접근 방식의 데이터 분석은 비지도 학습 방법에 의해 수행.
  • 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태 표현.
  • 목표 값을 사전에 정의하지 않고 데이터 자체만을 가지고 그룹을 도출

지도 학습

  • 명확한 목적 하에 데이터 분석을 실시
  • 도출되는 값에 대해 사전에 알고있고, 어떤 데이터를 넣었을 때 어떤 결과가 나올지 예측

시행 착오를 통한 문제 해결 - 프로토타이핑 접근법

  • 요구사항이나 데이터를 정확히 규정하기 어렵운 상황에서 일단 분석을 시도하고, 그 결과를 확인해가면서 반복적으로 개선해나가는 방법
  • 완전하지 않아도 신속하게 해결책이나 모형을 제시하고, 이를 바탕으로 데이터를 명확하게 인식하고 구체화하는 상향식 접근 방식
  • 단계 : 가설 생성 -> 디자인에 대한 실험 -> 실제 환경에서 테스트 -> 테스트 결과에서 통잘 도출 및 가설 확인
빅데티어 환경에서 프로토타이핑의 필요성
  1. 문제에 대한 인식 수준
    문제 정의가 불명확하거나 새로운 문제일 경우 프로토타입을 이용해 문제를 이해하고, 이를 바탕으로 구체화하는데 도움을 받을 수 있다.
  2. 필요 데이터 존재 여부의 불확실성
    필요한 데이터 집합이 모두 존재하지 않는 경우 사전에 확인할 수 있어 불가능한 프로젝트를 수행하는 리스크를 사전에 방지할 수 있다.
  3. 데이터 사용 목적의 가변성
    데이터의 가치는 지속적으로 변화할 수 있는데 프로토타이핑을 이용하면 기존의 데이터 정의를 검토해 데이터의 사용 목적과 범위를 확대할 수 있다.

분석과제 정의

  • 분석과제 정의서를 통해 분석별로 필요한 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도, 분석 수행 주기, 분석 결과에 대한 검증 오너십, 상세 분석 과정 등을 정의.
  • 분석 데이터 소스는 범위 확장까지 고려해 분석 방법 또한 상세히 정의

분석 프로젝트 관리

분석과제 관리를 위한 5가지 주요 영역

범위, 일정, 품질, 리스크, 의사소통 뿐 아니라 5가지 주요 속성을 고려한 추가 관리가 필요.

  1. Data Size
    분석하고자 하는 데이터의 양을 고려한 관리 방안 수립이 필요

  2. Data Complexity
    비정형 데이터 및 다양한 시스템에 산재되어 있는 원천 데이터들을 통합해서 분석 프로젝트를 진행할 때 데이터 확보와 통합 뿐 아니라 데이터에 잘 적용될 수 있는 분석 모델의 선정 등에 대한 사전 고려 필요.

  3. Speed
    분석 결과를 활용하는 시나리오 측면에서의 속도도 고려해야 한다. 특히 실시간으로 수행되어야 하는 프로젝트는 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 한다.

  4. Analytic Complexity
    분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지므로 기준점을 사전에 정의해야 한다. -> 해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델을 찾아야 한다.

  5. Accuracy & Precision
    Accuracy : 모델과 실제 값 사이 차이가 적다는 정확도 (활용적인 측면에서 중요)
    Precision : 모델을 지속적으로 반복햤을 때 편차의 수준 = 일관적으로 동일한 결과를 제시한다. (안정성 측면에서 중요)
    Accuract와 Precision은 trade off 되는 경우가 많으므로 모델 해석 및 적용 시 고려해야 한다.

분석 프로젝트의 특성

분석가

목표
  • 분석의 정확도를 높이는 것
  • 분석 과제를 잘 구현해 원하는 결과를 얻고 사용자가 잘 활용할 수 있도록 전체적 과정 고려해야 하기 때문에 개별적인 분석 업무 수행뿐 아니라 전반적인 프로젝트 관리 또한 중요하다.
입장
  • 데이터 원천을 다루는 데이터 영역과 결과를 활용할 비즈니스 영역의 중간에서 분석 모델을 통한 조율을 수행하는 조정자 역할
  • 데이터 영역과 비즈니스 영역의 현황을 이해하고, 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하므로 보통 프로젝트의 관리자까지 겸임하게 된다.
  • 그러므로 프로젝트 관리방안에 대한 이해와 주요 관리 포인트를 숙지해야 한다.

분석 프로젝트 특성

  • 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분.(애자일 프로젝트 관리방식에 대한 고려도 필요)
  • 데이터 영역과 비즈니스 영역에 대한 이해 뿐 아니라 지속적인 반복이 요구되는 분석 프로세스의 특성을 이해한 프로젝트 관리 방안 수립이 필요.
  • 지속적인 개선 및 변경을 염우하고 기간 내에 최선의 결과를 도출할 수 있도록 프로젝트 구성원들과 협업하는 것이 분석 프로젝트의 특징

분석 프로젝트의 관리 방안

프로젝트 관리자는 주요 사항들을 체크포인트 형태로 관리해 발생할 수 있는 이슈와 리스크를 숙지하고 미연에 방지해야 한다.

  • 범위
    • 프로젝트의 범위가 분석을 진행하면서 빈번하게 변경됨.
    • 최종 결과물에 따라서 투입되는 자원 및 범위가 크게 변경되므로 사전에 충분한 고려가 필요.
  • 시간
    • 지속적으로 반복되어 많은 시간이 소요됨.
    • 분석 결과에 대한 품질이 보장된다는 전제로 TimeBoxing 기법으로 일정 관리를 진행하는 것이 필요.
  • 원가
    • 외부 데이터를 활요할 경우 고가의 비용이 소요될 수 있어 사전 조사가 충분해야 함.
    • 오픈 소스 도구 외 상용 버전의 도구가 필요할 수 있음.
  • 품질
    • 프로젝트 수행 결과에 대한 품질 목표를 사전에 확정해야 함.
    • 프로젝트 품질은 품질 통제, 품질 보증으로 나누어 수행되어야 함.
  • 통합
    • 프로젝트 관리 프로세스들이 통합적으로 운영될 수 있도록 관리해야 함.
  • 조달
    • 외부 소싱을 적절하게 운영해야 함.
    • PoC형태의 프로젝트는 클라우드 등 다양한 방안을 검토해야 함.
  • 자원
    • 프로젝트 수행 전 전문가 확보에 대한 검토가 필요함.
  • 리스크
    • 데이터 미확보로 분석 프로젝트 진행이 어려울 수 있으므로 관련 위험을 식별하고 대응방안을 사전에 수립해야 함.
    • 데이터 및 분석 알고리즘의 한계로 품질 목표를 달성하기 어려울 수 있어 그에 따른 대응방안을 수립해야 함.
  • 의사소통
    • 데이터 분석의 결과를 모든 프로젝트 이해관계자가 공유할 수 있도록 함.
    • 프로젝트의 원활한 진행을 위한 다양한 의사소통체계가 필요.
  • 이해관계자
    • 데이터 전문가, 비즈니스 전문가, 분석 전문가, 시스템 전문가 등이 프로젝트에 참여
    • 이해 관계자 식별과 관리 필요.

분석기획

분석 기획이란?

  • 어떠한 목표를 달성하기 위해 어떠한 데이터를 가지고 어떤 방식으로 수행할 지에 대한 계획을 수립.

데이터 사이언티스트

  • 데이터 사이언티스트는 수학/통계학적 지식, 정보기술, 비즈니스에 대한 이해와 전문성 3가지 영역에 대한 고른 역량과 시각이 요구.
  • 분석을 기획한다는 것 : 해당 문제 영역에 대한 전문성 역량 + 수학/통계학적 지식을 활용한 분석 역량 + 분석 도구인 데이터 및 프로그래밍 기술 역량
    세가지에 대한 균형잡힌 시각을 가지고 방향성 및 계획 수립

분석 대상과 방법

분석 주제 유형

  • 최적화(Optimization) : 분석 대상 및 분석방법을 이해하고 현 문제를 최적화 형태로 수행
  • 솔루션(Solution) : 분석과제는 수행되고, 분석 방법을 모를 경우 솔루션을 찾아서 분석 수행
  • 통찰(Insight) : 분석 대상이 불분명하지만 분석 방법을 알 경우 인사이트 도출
  • 탐색(Discovery) : 분석 대상과 방법을 모를 경우 탐색을 통해 분석 대상 자체를 새롭게 도출 가능

출처: https://needjarvis.tistory.com/505 [자비스가 필요해]

목표 시점 별 분석 기획 방안

  • 과제 중심적인 접근 방식 : 과제를 빠르게 해결
  • 장기적인 마스터 플랜 방식 : 지속적인 분석 내재화

분석 기획에서는 두가지 방식을 융합하여 적용하는 것이 좋다.

분석 기획 시 고려사항

  1. 가용 데이터
    • 분석을 위한 데이터 확보가 우선적
    • 데이터 유형에 따라 적용 가능한 솔루션 및 분석 방법이 달라 유형에 대한 분석이 선행되어야 한다.
  2. 적절한 활용방안과 유즈케이스 탐색
    • 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션 최대한 활용
  3. 장애요소들에 대한 사전 계획 수립
    • 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용 방안 등 변화 관리 고려되어야 함.
    • 정확도를 올리기 위해 기간과 리소스가 늘어날 수 있는데 이것은 비용 상승으로 이어지므로 많은 고려 필요
정형 데이터
  • 특징 :
    • 데이터 자체로 분석 가능
    • RDB구조
    • 데이터 베이스로 관리
  • 유형 :
    • ERP, CRM, SCM 등
반정형 데이터
  • 특징 :
    • 데이터로 분석이 가능하지만 해석이 불가능.
    • 메타 정보를 활용해야 해석 가능
  • 유형 :
    • 로그 데이터, 모바일 데이터, 센싱 데이터
비정형 데이터
  • 특징 :
    • 데이터 자체로 분석 불가능
    • 특정 처리 프로세스를 거쳐 분석 데이터로 변경 후 분석
  • 유형 :
    • 영상, 음성, 문자 등

분석 방법론

분석 방법론이란?

  • 데이터를 효과적으로 기업 내에 정착하기 위해 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론이 수립되어야 한다.
  • 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야 한다.
  • 어느 정도의 지식만 있으면 활용이 가능해야 한다.
  • 구성요소
    • 절차
    • 방법
    • 도구와 기법
    • 템플릿과 산출물

기업의 합리적 의사결정을 가로막는 장애요소

  1. 고정관념
  2. 편향된 생각
  3. 프레이밍 효과
    • 문제의 표현 방식에 따라 동일한 사건이나 상황이지만 개인의 판단이나 선택이 달라질 수 있는 현상

방법론의 생성과정

방법론 적용 업무의 특성에 따른 모델

  1. 폭포수 모델

    • 단계를 순차적으로 진행하는 방법
    • 이전 단계가 완료되어야 다음 단계로 넘어감. 문제 발견 시 피드백 과정이 수행.
    • 장점 : 체계적인 문서화가 가능하여 프로젝트 진행을 명확하게 알 수 있음
    • 단점 : 앞 단계가 완료될 때 까지 다음 단계들은 대기상태, 문제가 발견되면 피드백 과정이 수행되기도 함
  2. 프로토타입 모델

    • 점진적으로 시스템을 개발해 나가는 방법
    • 일부분(프로토타입)을 우선 개발하고 시험 사용해 사용자 요구 분석과 요구 정당성을 점검, 성능 평가하여 그 결과를 통한 개선 작업 진행.
    • 장점 : 사용자 요구사항 도출 용이, 요구사항이 불명확할 경우 사용
    • 단점 : 중간단계 산출물의 문서화 어려움 (document 경시), 프로토타입 결과를 최종 결과물로 오해할 가능성 있음, 평가 후 프로토타입 폐기 시 비경제적임
  3. 나선형 모델

    • 반복을 통해 점증적으로 개발하는 방법
    • 처음 시도하는 프로젝트에 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있음
    • 대규모 프로젝트나 국책사업 및 위험 부담이 큰 시스템 개발에 적합
    • 장점 : 처음 시도하는 프로젝트에 적용이 용이
    • 단점 : 복잡성으로 프로젝트 관리가 어렵고, 개발 장기화 가능성 존재.

방법론 구성

  1. 단계
    • 단계별 산출물을 생성
    • 단계별 완료 보고서
  2. 태스크
    • 단계를 구성하는 단위 활동
    • 보고서
  3. 스탭
    • WBS의 워크 패키지에 해당
    • 보고서 구성요소

KDD 분석 방법론

  • Knowledge Discovery in Databases
  • 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
  • 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에 응용되는 구조

분석 절차

1. 데이터셋 선택
  • 선택 전 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수
  • 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계
  • 결과물 : Target Data
2. 데이터 전처리
  • Target Data에 포함되어 있는 잡음, 이상치, 결측치를 식별하고 의미있는 데이터로 만드는 단계.
  • 이 단계에서 추가로 필요한 데이터셋이 필요한 경우 1번의 데이터셋 선택 프로세스를 재실행한다.
3. 데이터 변환
  • 분석 목적에 맞게 변수 생성, 선택하고 데이터의 차원을 축소
  • 학습용 데이터와 검증용 데이터로 데이터를 분리
4. 데이터 마이닝
  • 학습용 데이터를 이용해 분석 목적에 맞는 데이터 마이닝 기법을 선택, 적절한 알고리즘 이용해 데이터 마이닝 작업을 실행.
  • 필요에 따라 데이터 전처리와 데이터 변환을 추가로 실행.
5. 데이터 마이닝 결과 평사
  • 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인
  • 결과를 업무에 활용하기 위한 방안 마련

데이터 마이닝
대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정이다.

CRISP-DM 분석 방법론

  • 데이터 마이닝 전문가가 사용하는 일반적인 접근 방식을 설명한 가장 널리 사용되는 공개 표준 분석 모델입니다.
  • 계층적 프로세스 모델 (4개의 레벨로 구성)

4레벨 구조

  1. Phases(단계) : 우리가 생각하는 일반적인 단계 (ex: 기획, 수집, 분석)
  2. Generic Tasks(일반과제) : 데이터마이닝의 단일 프로세스를 완벽하게 수행하는 단위 (ex: 데이터 정제)
  3. Specialized Tasks(세부과제) : 일반과제를 구체적으로 나눈 태스크로 데이터 정제라는 일반화 과제를 범주형/연속형 데이터 정제와 같은 태스크로 구성가능
  4. Process Instances(프로세스 실행) : 데이터마이닝을 위한 구체적인 실행

프로세스

Business Understanding(비즈니스 이해)
  • 비즈니스 관점에서 목적과 요구사항을 이해
  • 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획 수립
  • 수행업무 : 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
Data Understanding(데이터 이해)
  • 분석을 위한 데이터를 수집 및 속성을 이해하는 단계
  • 문제점을 식별하며 숨겨져 있는 인사이트 발견하는 단계
  • 수행업무 : 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
Data Preparation(데이터 준비)
  • 데이터 정제, 새로운 데이터 생성 등 자료를 분석 가능한 상태로 만드는 단계(많은 시간이 소요 될 수 있음)
  • 수행업무 : 분석용 데이터 셋 선택, 데이터 정제, 데이터 통합, Training/Test 데이터 분리 등
Modeling(모델링)
  • 다양한 모델링 기법과 알고리즘을 선택하고 파라미터를 최적화 하는 단계
  • 모델링 결과를 검증용 데이터로 평가하여 과적합(Over-Fitting) 문제를 추가 확인
  • 수행업무 : 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
Evaluation(평가)
  • 모형의 해석 가능 여부 및 결과가 프로젝트 목적에 부합하는지 평가하며 결과를 수용할 것인지 판단하는 단계
  • 수행업무 : 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
Deployment(전개)
  • 완성된 모델을 실 업무에 적용하기 위한 계획 수립
  • 모니터링과 모델의 유지보수 계획을 마련하고 각 관리자에게 전달하여 필요한 조치를 취하며 검토가 완료된 모형을 현업에 적용
  • 수행업무 : 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

KDD와 CRISP-DM의 비교

빅데이터 분석 방법론

계층적 프로세스

  • 계층적 프로세스 모델(Stepwised Process Model)로 3계층 구성
  1. Phase (단계) : 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선(Baseline)으로 설정 관리하며, 버전관리(Configuration Management) 등을 통한 통제
  2. Task (태스크) : 단계를 구성하는 단위활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
  3. Step (스텝) : WBS(Work Breakdown Structure)의 워크패키지(Work Package)에 해당되고 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)

5단계

  1. 분석 기획(Planning) : 비즈니스 도메인과 문제점 인식하고 분석 계획 및 프로젝트 수행 계휙을 수립
  2. 데이터 준비(Preparing) : 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비
  3. 데이터 분석(Analyzing) : 원천 데이터를 분석용 데이터 셋으로 편성하고 데이터를 분석하는 단계. 추가적인 데이터가 필요한 경우 데이터 준비 단계로 피드백.
  4. 시스템 구현(Developing) : 분석 기획에 맞는 모델을 도출하여 운영중인 시스템에 적용하거나 프로토타입 시스템 구현
  5. 평가 및 전개(Lesson Learned) : 프로젝트의 성과를 평가하고 정리하거나 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달

단계별 세부 단계 및 실제 업무

0개의 댓글