[ADsP] 데이터 분석 기획의 이해

당당·2023년 7월 14일
1

ADsP

목록 보기
5/13
post-thumbnail

📔설명

분석 기획 방향성 도출을 위한 분석 기획의 특징과 고려사항을 알아보고,
분석 방법론 중 KDD분석과, CRISP-DM 분석 방법론을 알아보자.
빅데이터 분석 방법론을 이해하고 각 단계별 내용을 자세히 알아보자.


데이터 분석 방법론과 프로세스의 필요성

  • 대용량 데이터베이스와 빅데이터를 통해 새로운 인사이트를 도출하고자 하는 시도가 증가하여 데이터를 분석할 때, 어떤 방법론어떤 프로세스로 데이터를 분석하는 것이 효율적인지 관심 증가
  • 빅데이터나 대용량 데이터의 경우, 분석하고자 하는 목적에 따라 가장 적절한 방법론을 찾는 것이 중요
  • 대용량 데이터분석하는 프로세스에서 중요한 과정생략하거나 중복할 경우 발생되는 비용엄청난 손실로 나타날 수 있으므로 효율적인 프로세스를 통해 분석 업무를 수행하는 것이 중요

KDD, CRISP-DM 빅데이터 분석 방법론

  • 정형화된 데이터베이스를 분석하는 정형 데이터 마이닝 프로세스로 가장 많이 활용되고 있는 프로세스는 KDD(Knowledge Discovery in Database) 분석 방법론과 CRISP-DM 프로세스

🧂분석기획 방향성 도출

분석기획의 특징

분석기획

  • 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
  • 분석과제 및 프로젝트를 직접 수행하는 것은 아니지만, 어떠한 목표(What)를 달성하기 위하여(Why) 어떠한 데이터를 가지고 어떤 방식(How)으로 수행할 지에 대한 일련의 계획수립하는 작업
    -> 성공적인 분석결과를 도출하기 위한 중요한 사전작업

데이터 사이언티스트의 역량

  • 수학/통계학적 지식정보기술(IT기술, 해킹기술, 통신기술 등) 뿐만 아니라 해당 비즈니스에 대한 이해전문성을 포함한 3가지 영역에 대한 고른 역량과 시각이 요구
  • 분석을 기획한다는 것은 해당 문제 영역에 대한 전문성 역량수학/통계학적 지식을 활용한 분석 역량과 분석의 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형 잡힌 시각을 가지고 방향성 및 계획을 수립해야 함

분석 대상과 방법

  • 분석의 대상(What)분석의 방법(How)에 따라 4가지로 나뉨
  • 특정한 분석 주제를 대상으로 진행할 경우, 분석 주제기법의 특성상 4가지 유형을 넘나들면서 분석을 수행하고 결과 도출 과정 반복

목표 시점 별 분석 기획 방안

목표시점 별

  • 당면한 과제를 빠르게 해결하는 과제 중심적인 접근 방식
  • 지속적인 분석 내재화를 위한 장기적인 마스터 플랜 방식
  • 분석기획에서는 문재해결을 위한 단기적인 접근방식분석과제 정의를 위한 중장기적인 마스터 플랜 접근방식융합하여 적용하는 것이 중요
  • 의미있는 분석을 위해서는 분석 기술, IT 및 프로그래밍, 분석 주제에 대한 도메인 전문성, 의사소통이 중요
  • 분석대상 및 방식에 따른 다양한 분석 주제를 과제 단위 혹은 마스터 플랜 단위도출할 수 있어야 함


분석 기획시 고려사항

분석의 기본가용 데이터(Available Data)에 대한 고려

  • 분석을 위한 데이터의 확보가 우선
  • 데이터의 유형에 따라 적용 가능한 솔루션분석방법이 다르기 때문에 유형에 대한 분석이 선행

분석을 통해 가치가 창출될 수 있는 적절한 활용방안유즈케이스(Proper Business Use Case) 탐색 필요

  • "바퀴를 재발명하지 마라"는 격언처럼 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오솔루션을 최대한 활용하는 것이 중요

분석 수행시 발생하는 장애요소들에 대한 사전계획 수립(Low Barrier Of Execution)

  • 일회성 분석으로 그치지 않고, 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육활용방안 등의 변화 관리(Change Management)가 고려

다양한 데이터 유형


🍐분석 방법론

분석 방법론 개요

  • 데이터 분석이 효과적으로 기업내에 정착하기 위해선 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수
  • 프로젝트는 개인의 역량이나 조직의 우연한 성공에 기인X
  • 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성확보하고 제시할 수 있어야함
  • 방법론은 상세한 절차(Procedures), 방법(Methods), 도구와 기법(Tools&Techniques), 템플릿과 산출물(Templates&Outputs)로 구성

데이터 기반 의사결정의 필요성

  • 경험과 감에 따른 의사결정 -> 데이터 기반의 의사결정
  • 기업합리적 의사결정을 가로막는 장애요소
    : 고정관념(Stereotype), 편향된 생각(Bias), 프레이밍 효과(Framing Effect : 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상)

방법론의 생성과정


방법론의 적용 업무의 특성에 따른 모델

  1. 폭포수 모델(Waterfall Model)
  • 단계순차적으로 진행하는 방법
  • 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며, 문제가 발견될 시 피드백 과정이 수행(기존 IT의 SW 개발 방식)

  1. 프로토타입 모델(Prototype Model)
  • 폭포수 모델의 단점을 보완
  • 점진적으로 시스템을 개발
  • 고객의 요구를 완전하게 이해하고 있지 못하거나 완벽한 요구 분석어려움을 해결하기 위해 일부분우선 개발하여 사용자에게 제공
  • 시험 사용 후 사용자의 요구를 분석하거나 요구 정당성을 점검, 성능 평가하여 그 결과를 통한 개선 작업을 시행

  1. 나선형 모델(Spiral Model)
  • 반복을 통해 점증적으로 개발하는 방법
  • 처음 시도하는 프로젝트에 적용이 용이하나, 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있음


방법론의 구성


KDD 분석 방법론

  • KDD(Knowledge Discovery in Databases) : 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
  • 데이터 마이닝, 기계학습, 인공지능,패턴인식,데이터 시각화 등에서 응용될 수 있는 구조

KDD 분석 절차

  1. 데이터셋 선택(Selection)
  • 데이터셋 선택에 앞서 분석 대상비즈니스 도메인에 대한 이해프로젝트 목표 설정 필수
  • 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계
  • 데이터마이닝에 필요한 목표데이터(Target Data)를 구성하여 분석에 활용

  1. 데이터 전처리(Preprocessing)
  • 추출된 분석 대상용 데이터 셋에 포함되어 있는 잡음(Noise)이상치(Outlier), 결측치(Missing Value)식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터 셋을 정제하는 단계
  • 데이터 전처리 단계에서 추가로 요구되는 데이터 셋이 필요한 경우 데이터 선택 프로세스를 재실행

  1. 데이터 변환(Transformation)
  • 데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 할 수 있도록 데이터를 변경하는 단계

  1. 데이터 마이닝(Data Mining)
  • 학습용 데이터를 이용하여 분석목적에 맞는 데이터 마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터 마이닝 작업을 실행하는 단계
  • 필요에 따라 데이터 전처리데이터 변환 프로세스를 추가로 실행하여 최적의 결과 산출

  1. 데이터 마이닝 결과 평가(Interpretation/Evaluation)
  • 데이터마이닝 결과에 대한 해석과 평가, 분석목적과의 일치성을 확인
  • 데이터마이닝을 통해 발견한 지식업무에 활용하기 위한 방안 마련 단계
  • 필요에 따라 데이터 선택프로세스에서 데이터 마이닝프로세스를 반복 수행

CRISP-DM 분석 방법론

  • CRISP-DM(Cross Industry Standard Process for Data Mining)
    : 유럽연합의 ESPRIT에 있었던 프로젝트에서 시작,
    주요한 5개의 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)이 주도
  • 계층적 프로세스 모델로써 4개 레벨로 구성

CRISP-DM의 4레벨 구조

  • 최상위 레벨은 여러 개의 단계(Phases)로 구성
  • 단계일반화 테스크(Generic Tasks)를 포함
  • 일반화 테스크는 데이터마이닝의 단일 프로세스완전하게 수행하는 단위이며 구체적인 수행 레벨세분화 태스크(Specialized Task)로 구성
    ex) 데이터 정제(Data Cleansing)라는 일반화 태스크범주형 데이터 정제연속형 데이터 정제와 같은 세분화 테스크로 구성
  • 마지막 레벨프로세스 실행(Process Instances)는 데이터마이닝을 위한 구체적인 실행을 포함

CRISP-DM의 프로세스

  • CRISP-DM 프로세스6단계로 구성
  • 각 단계는 단방향X, 단계 간 피드백을 통하여 단계별 완성도향상

단계내용수행업무
업무이해
Business Understanding
- 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
- 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
데이터 이해
Data Understanding
- 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계
- 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
데이터 준비
Data Preparation
- 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계(많은 시간 소요)분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
모델링
Modeling
- 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
- 모델링 과정에서 데이터 셋이 추가로 필요시, 데이터 준비 단계를 반복 수행
- 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합(Overfitting) 문제 확인
모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
평가
Evaluation
- 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터 마이닝 결과를 최종적으로 수용할 것인지 판단분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
전개
Deployment
- 모델링과 평가 단계를 통하여 완성된 모델을 실 업무에 적용하기 위한 계획 수립
- 모니터링과 모델의 유지보수 계획 마련
=> 모델에 적용되는 비즈니스 도메인 특성, 입력되는 데이터 품질 편차, 운영모델의 평가기준에 따라 생명주기가 다양하므로 상세한 전개 계획 필요
- CRISP-DM의 마지막 단계, 프로젝트 종료 관련 프로세스를 수행하여 프로젝트 마무리
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

KDD와 CRISP-DM의 비교

KDDCRISP-DM
분석대상 비즈니스 이해업무 이해
데이터셋 선택데이터의 이해
데이터 전처리
데이터 변환데이터 준비
데이터 마이닝모델링
데이터 마이닝 결과 평가평가
데이터 마이닝 활용전개

빅데이터 분석방법론

빅데이터 분석의 계층적 프로세스

  1. 단계(Phase)
  • 프로세스 그룹을 통하여 완성된 단계별 산출물 생성
  • 각 단계는 기준선(Baseline)으로 설정되어 관리 되어야 함
  • 버전관리 등을 통하여 통제가 이루어져야 함

  1. 태스크(Task)
  • 단계는 여러 개의 태스크(Task)로 구성
  • 각 태스크는 단계를 구성하는 단위 활동
  • 물리적 또는 논리적 단위로 품질 검토의 항목이 됨

  1. 스텝(Step)
  • WBS워크 패키지에 해당
  • 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스

빅데이터 분석 방법론 - 5단계

  1. 분석기획(Planning)
    : 비즈니스 도메인문제점을 인식하고 분석 계획프로젝트 수행계획수립하는 단계

  2. 데이터 준비(Preparing)
    : 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계

  3. 데이터 분석(Analyzing)
    : 원천 데이터분석용 데이터 셋으로 편성하고 다양한 분석 기법알고리즘을 이용하여 데이터를 분석하는 단계.
    분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계피드백하여 두 단계를 반복하여 진행

  4. 시스템 구현(Developing)
    : 분석 기획에 알맞는 모델을 도출하고 이를 운영 중인 가동 시스템적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템구현

  5. 평가 및 전개(Deploying)
    : 데이터 분석시스템 구현 단계를 수행한 후, 프로젝트의 성과 평가정리, 모델의 발전 계획수립하여 차기 분석 기획으로 전달하고 프로젝트 종료


단계별 세부단계 및 실제 업무

https://velog.io/@hyelimchoi1223/ADP-데이터-분석-기획의-이해


🍖분석 과제 발굴

분석과제 발굴 방법론

  • 분석 과제는 풀어야 할 다양한 문제를 데이터 분석 문제로 변환 후 관계자들이 이해하고 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출
  • 분석과제를 도출하기 위한 방식
    • 하향식 접근 방법(Top Down Approach)
    • 상향식 접근 방법(Bottom up Approach)

  • 문제가 주어진 상태에서 을 구하는 하향식 접근 방식이 전통적으로 수행되었던 분석 과제 발굴 방식
  • 대규모의 다양한 데이터를 생성하고 빠르게 변하는 기업 환경에서는 문제 자체의 변화가 심해 정확하게 문제를 사전에 정의하는 것이 어려워
  • 최적의 의사결정두 접근 방식상호 보완 관계에 있을 때 가능

*디자인 사고(Design Thinking)
: 상향식 접근 방식발산(Diverge)단계와 하향식 접근 방식수렴(Converge)단계를 반복적으로 수행하는 식의 상호 보완적인 동적 환경을 통해 분석적 가치를 높일 수 있는 최적의 의사결정 방식


하향식 접근법(Top Down Approach)

  • 현황 분석을 통해 기회문제탐색(Problem Discovery)하고, 해당 문제를 정의(Problem Definition),해결방안을 탐색(Solution Search)
  • 그 후 데이터 분석의 타당성 평가(Feasibility Study)를 거쳐 분석 과제 도출
  1. 문제 탐색(Problem Discovery)단계-하향식 접근법 1단계
  • 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하고 식별

  • 전체적인 관점의 기준 모델기업 내/외부 환경을 포괄하는 비즈니스 모델외부 참조 모델이 존재

  • 과제 발굴 단계에서는 세부적인 구현솔루션에 초점X

  • 문제를 해결함으로써 발생하는 가치에 중점

    • 비즈니스 모델 기반 문제 탐색

      • 기업 내/외부 환경포괄하고 있는 비즈니스 모델이라는 틀(Frame)을 활용하여 비즈니스 모델 캔버스의 9가지 블록을 단순화하여 업무(Operation),제품(Product),고객(Customer)단위로 문제를 발굴

      • 이를 관리하는 두 가지 영역인 규제와 감사(Regulation&Audit)영역과 지원 인프라(IT&Human Resources) 영역에 대한 기회를 추가로 도출

        과제발굴방법내용
        업무(Operation)제품 및 서비스를 생산하기 위해 운영하는 내부 프로세스 및 주요 자원(Reosurce) 관련 주제 도출-생산 공정 최적화
        - 재고량 최소화
        제품(Product)생산 및 제공하는 제품/서비스를 개선하기 위한 관련 주제 도출-제품의 주요기능 개선
        -서비스 모니터링 지표 도출
        고객(Customer)제품/서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출-고객 Call 대기 시간 최소화
        -영업점 위치 최적화
        규제와 감사(Regulation&Audit)제품 생산 및 전달과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출-제공 서비스 품질 이상징후 관리
        -새로운 환경 규제 시 예상 되는 제품 추출
        지원 인프라(IT&Human Resources)분석을 수행하는 시스템 영역 및 이를 운영/관리하는 인력의 관점에서 주제 도출-EDW 최적화
        -적정 운영 인력 도출 등

        *비즈니스 모델 캔버스 채널(Channel) 특징
        -기업이 제공하는 상품이나 서비스에 대한 고객의 이해를 높임
        -기업이 전달하는 밸류 프로포지션을 고객들이 평가할 수 있도록 함
        -고객이 특정한 상품이나 서비스를 구매하게 도와줌
        -고객에게 밸류 프로포지션을 전달
        -구매 고객에 대한 애프터 서비스 제공

    • 분석 기회 발굴의 범위 확장

      - 거시적 관점메가 트랜드
      : 조직 및 해당 산업에 폭넓게 영향을 미치는 사회/경제적 요인STEEP으로 요약되는 Social(사회),Technological(기술), Economic(경제), Environmental(환경),Political(정치)영역으로 나눔

        - 사회 : 현재 고객 확장하여 전체 시장을 대상으로 사회적, 문화적, 구조적 트렌드 변화 기반한 분석 기회 도출 
                  예) 노령화, 밀레니얼 세대의 등장, 저출산에 따른 해당 사업 모델의 변화 등
        - 기술 : 최신 기술의 틍장, 변화에 다른 역량 내재화/제품, 서비스 개발에 대한 분석 기회 도출
                  예) 나노기술, IT융합 기술, 로봇기술
        - 경제 : 경제 구조 변화 동향에 따른 시장 흐름
                  예) 원자재 가격, 환율, 금리변동에 다른 구매 전략 변화
        - 환경 : 정부, 사회단체, 시민사회의 관심과 규제
                  예) 탄소 배출 규제, 거래시장 등장에 따른 원가 절감, 정보 가시화 
        - 정치 : 주요 정책 방향, 정세, 지정학적 동향
                  예)  대북 관계 동향에 따른 원자재 구매 거래선의 다변화 등 

      -경쟁자 확대 관점
      : 현재 수행하고 있는 사업 영역직접 경쟁사제품/서비스뿐만 아니라 대체재신규 진입자 등으로 관점을 확대하여 위협이 될 수 있는 상황에 대한 분석 기회 발굴의 폭을 넓힘

       - 대체재 : 오프라인 제품 온라인으로 제공하는 것에 대한 탐색 및 잠재적 위협
        - 경쟁자 : 주요 경쟁자 동향 파악
        - 신규 진입자 : 새로운 제품에 대한 크라우드 소실 서비스인 킥스타터의 유사 제품 분석 , 자사 제품 위협 파악

      -시장의 니즈 탐색 관점
      : 현재 수행하고 있는 사업에서의 직접 고객뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널고객의 구매와 의사 결정에 영향을 미치는 영향자

        - 고객영역  : 제품, 서비스의 개선 필요에 필요한 기회 도출 - 주요 거래선의 경영 현황 파악
         - 채널영역 : 자체적 채널 뿐 아니라 최종 고객에서 상품, 서비스 전달하는 것에 경로로 존재하는 가능한 경로 파악 - 온라인채널
         - 영향자들 영역 : 주주, 투자자, 협회 및 기타 이해관계자의 주요 관심 사항 - M&A 시장 확대 , 신규 기업 인수 기회 탐색 등

      -역량 재해석 관점
      : 현재 해당 조직 및 기업이 보유한 역량 뿐만 아니라 해당 조직의 비즈니스에 영향을 끼치는 파트너 네트워크를 포함한 활용 가능한 역량을 토대로 폭넓은 분석 기회를 탐색

       - 내부 역량 : 지식, 기술, 스킬 등의 노하우와 인프라적인 유형 자산 -> 재해석&분석 - 자사 소유 부동산 활용
        - 파트너와 네트워크 영역 : 밀접한 관계 유지하고 있는 관계사, 공급사 역량 - 수출입 , 통관 노하우 활용한 추가 사업기회
       
    • 외부참조 모델기반 문제탐색

      • 유사/동종 사례 벤치마킹을 통한 분석기회 발굴
        : 제공되는 산업별, 업무 서비스별 분석 테마 후보 그룹(Pool)을 통해 "Quick&Easy" 방식으로 필요한 분석기회가 무엇인지에 대한 아이디어를 얻고, 기업에 적용할 분석테마 후보 목록을 워크숍 형태브레인스토밍을 통해 빠르게 도출하는 방법

    • 분석 유즈케이스(Analytics UseCase)

      • 현재 비즈니스 모델 및 유사/동종사례 탐색을 통해 빠짐없이 도출한 분석 기회들을 구체적인 사례로 만들기 전에 분석 유즈케이스로 표기하는 것이 필요
      • 분석 유즈케이스
        : 풀어야 할 문제에 대한 상세한 설명해당 문제해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환적합성 평가에 활용

  1. 문제 정의(Problem Definition)단계-하향식 접근법 2단계
  • 식별된 비즈니스 문제데이터의 문제로 변환하여 정의하는 단계
  • 앞서 수행한 문제 탐색 단계가 무엇을 어떤 목적으로 수행해야 하는지에 대한 관점
  • 본 단계는 이를 달성하기 위해서 필요한 데이터기법을 정의하기 위한 데이터 분석 문제로의 변환을 수행
  • 데이터 분석 문제의 정의 및 요구사항
    : 분석을 수행하는 당사자뿐만 아니라 해당 문제가 해결되었을 때 효용을 얻을 수 있는 최종사용자 관점에서 이루어져야 함
  • 데이터 분석 문제가 잘 정의되었을 때 필요한 데이터 정의기법 발굴이 용이하기 때문에 가능한 정확하게 분석의 관점으로 문제를 재정의


  1. 해결방안 탐색(Solution Search)단계-하향식 접근법 3단계
  • 정의된 데이터 분석 문제해결하기 위한 다양한 방안 모색
    • 기존 정보시스템의 단순한 보완으로 분석이 가능한지 고려
    • 엑셀등의 간단한 도구로 분석이 가능한지 고려
    • 하둡분산병렬처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도있는 방안 고려
  • 분석역량을 기존에 가지고 있는 지의 여부를 파악하여 보유하고 있지 않은 경우, 교육이나 전문인력 채용을 통한 역량 확보 또는 분석 전문업체를 활용하여 과제를 해결하는 방안에 대해 사전 검토

  1. 타당성 검토(Feasibility Study)-하향식 접근법 4단계
  • 도출된 분석 문제가설에 대한 대안과제화하기 위해서는 다음과 같은 다각적인 타당성 분석이 수행
    • 경제적 타당성
      • 비용대비 편익 분석 관점접근이 필요
      • 비용 항목 : 데이터, 시스템, 인력, 유지보수 등과 같은 분석 비용
      • 편익 : 분석결과를 적용함으로써 추정되는 실질적 비용 절감, 추가적 매출과 수익 등 경제적 가치
    • 데이터 및 기술적 타당성
      • 데이터 분석에는 데이터 존재여부, 분석 시스템 환경, 분석 역량이 필요
      • 분석 역량은 실제 프로젝트 수행시 걸림돌이 되는 경우가 많아, 기술적 타당성 분석역량 확보 방안사전에 수립하고 이를 효과적으로 평가하기 위해서는 비즈니스 지식기술적 지식이 요구
  • 위의 타당성 검토를 통해 도출된 대안을 통해
    • 평가 과정을 거쳐 가장 우월한 대안을 선택
    • 도출한 데이터 분석 문제선정된 솔루션 방안을 포함
    • 분석과제 정의서 형태로 명시하는 후속작업 시행
    • 프로젝트 계획입력물

상향식 접근법(Bottom-Up Approach)

  • 다양한 원천 데이터를 대상으로 분석을 수행하여 가치있는 모든 문제도출하는 일련의 과정
  1. 기존의 하향식 접근법한계를 극복하기 위한 분석 방법론
  • 기존 접근방법인 논리적인 단계별 접근법문제의 구조가 분명하고 문제를 해결하고 해결책을 도출하는 솔루션 도출에는 유효하나 새로운 문제 탐색에는 한계
    -> 최근 복잡하고 다양한 환경에서 발생하는 문제에는 적합X
  • 스탠포드 대학의 d.school에서는 디자인 사고 접근법을 통해 전통적인 분석 사고 극복
  • 답을 미리 내는 것이 아니라 사물을 있는 그대로 인식하는 What관점
  • 객관적으로 존재하는 데이터 그 자체를 관찰하고 실제적으로 행동에 옮김으로써 대상을 좀 더 잘 이해하는 방식으로 접근 수행
  • 디자인 사고에서 Empathize(감정이입)을 강조

  1. 비지도 학습과 지도학습
  • 비지도 학습(Unsupervised Learning)
    • 상향식 접근방식의 데이터 분석 : 비지도 학습방법으로 수행
    • 비지도 학습 : 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드값을 구하는 것X, 데이터 자체결합,연관성,유사성 등을 중심으로 데이터의 상태 표현
      ex) 장바구니 분석, 군집 분석, 기술 통계 및 프로파일링
  • 지도 학습(Supervised Learning)
    • 명확한 목적하에 데이터분석 실시
    • 사용자의 주도하에 분석을 실시하고 지식을 도출
      ex)분류, 예측, 추측, 최적화
    • 통계적 분석에서는 인과관계 분석을 위해 가설 설정하고 이를 검정하기 위해 모집단으로 표본추출을 하고 표본을 이용한 가설검정을 실시하는 방식으로 문제 해결
      =>빅데이터 환경에서는 상관관계 분석 또는 연관분석을 통해 다양한 문제 해결 가능

  1. 시행착오를 통한 문제해결
  • 프로토타이핑 접근법
    : 사용자가 요구사항이나 데이터정확히 규정하기 어렵데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해 가면서 반복적으로 개선하는 방법
  • 하향식 접근방식은 문제가 정형화 되어있고 문제해결을 위한 데이터가 완벽하게 조직에 존재할 경우 효과적
  • 프로토타이핑 방법론은 비록 완전하지는 못하다 해도 신속하게 해결책이나 모형을 제시함으로써, 이를 바탕으로 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방식
  • 프로토타이핑 접근법기본적인 프로세스
    : 가설생성,디자인 실험,실제 환경테스트,테스트결과에서 통찰도출 및 가설 확인
    • 빅데이터 분석 환경에서 프로토타이핑의 필요성
      • 문제에 대한 인식수준
        : 문제 정의불명확하거나 이전에 접해보지 못한 새로운 문제일 경우, 사용자 및 이해관계자는 프로토타입을 이용하여 문제를 이해하고 이를 바탕으로 구체화하는데 도움 받음
      • 필요 데이터 존재 여부불확실성
        : 문제해결을 위해 필요한 데이터의 집합모두 존재하지 않을 경우 그 데이터의 수집을 어떻게 할 것인지 또는 그 데이터를 다른 데이터로 대체할 것인지 등에 대한 사용자와 분석가 간의 반복적이고 순환적인 협의 과정 필요
        -> 대체 불가능한 데이터가 존재하는지 사전에 확인시 불가능한 프로젝트 수행하는 리스크 사전에 방지
      • 데이터 사용 목적가변성
        : 데이터의 가치는 사전에 정해진 수집목적에 따라 확정되는 것이 아니라 그 가치가 지속적으로 변화
        -> 조직에서 보유 중인 데이터라 하더라도 기존의 데이터 정의재검토하여 데이터의 사용 목적범위확대 가능

분석과제 정의

  • 분석과제 정의서를 통해 분석별로 필요한 소스 데이터, 분석방법, 데이터 입수 및 분석 난이도, 분석 수행주기, 분석결과에 대한 검증 오너십, 상세 분석 과정등을 정의
  • 분석 데이터 소스내/외부의 비구조적인 데이터소셜미디어오픈 데이터까지 범위를 확장해 고려하고 분석방법 또한 상세하게 정의

🍍분석 프로젝트 관리 방안

분석과제 관리를 위한 5가지 주요 영역

  • 과제 형태로 도출된 분석기회는 프로젝트를 통해서 가치 증명, 목표 달성
  • 범위, 일정, 품질, 리스크, 의사소통영역별 관리 수행 필요뿐만 아니라 다양한 데이터에 기반한 분석기법을 적용하는 특성 때문에 5가지 주요 속성을 고려한 추가적 관리 필요

영역내용
DATA SIZE분석하고자 하는 데이터의 양 고려
하둡 환경과 기존 정형 데이터베이스
DATA COMPLEXITY정형 데이터 분석과 달리 비정형 데이터 및 다양한 시스템에 산재된 원천 데이터를 통합해 분석 프로젝트 진행시, 초기 데이터 확보와 통합 뿐 아니라 해당 데이터에 잘 적용될 수 있는 분석 모델의 선정 등에 대한 사전 고려 필요
SPEED분석결과 도출시 이를 활용하는 시나리오 측면에서의 속도 고려
실시간으로 사기를 탐지하거나 서비스 추천시 분석 모델의 적용 및 계산이 실시간으로 수행되어야 하므로 프로젝트 수행 시 분석 모델의 성능 및 속도를 고려한 개발 및 테스트 수행 필요
ANALYTIC COMPLEXITY분석 모델의 정확도와 복잡도는 트레이드 오프 관계가 존재
복잡-> 정확도 높음, 해석 어려움 => 기준점 사전에 정의 필요
해석 가능하면서도 정확도 올릴 수 잇는 최적모델 모색
ACCURACY&PRECISIONACCURACY(정확도) : 모델과 실제 값 사이의 차이가 적다
PRECISION : 모델을 지속적으로 반복한 경우 편차가 없이 동일한 결과 제시
분석 활용적 측면에서는 Accuracy 중요, 안정성 측면에선 Precision이 중요
accuracy와 precision은 트레이드오프가 되므로 모델 해석 및 적용 시 사전에 고려


분석 프로젝트의 특성

분석가목표

  • 분석의 정확도를 높이는 것
  • 프로젝트 관점에서는 도출된 분석 과제를 잘 구현하여 원하는 결과를 얻고 사용자가 원활하게 활용할 수 있도록 전체적인 과정 고려 필요로 개인적인 분석 업무+전반적인 프로젝트 관리 중요

분석가입장

  • 데이터의 원천을 다루는 데이터 영역결과를 활용할 비즈니스 영역의 중간에서 분석 모델을 통한 조율을 수행하는 조정자의 역할
  • 분석 프로젝트에서 데이터 영역과 비즈니스 영역의 현황을 이해하고 프로젝트 목표인 분석의 정확도 달성결과에 대한 가치 이해를 전달하는 조정자로서의 분석가 역할이 중요
  • 조정자로서의 분석가가 해당 프로젝트 관리자까지 겸임하게 되는 경우가 대부분으로 프로젝트 관리방안에 대한 이해주요 관리 포인트를 사전에 숙지 필수

분석 프로젝트

  • 도출된 결과재해석을 통한 지속적인 반복정교화가 수행되는 경우가 대부분
  • 프로토타이핑 방식애자일(Agile) 프로젝트 관리방식에 대한 고려 필요
  • 데이터 분석의 지속적인 반복개선을 통하여 의도했던 결과에 더욱 가까워지는 형태로 프로젝트가 진행될 수 있도록 관리 방안 수립 사전에 필요

  • 데이터 영역비즈니스 영역에 대한 이해 뿐만 아니라 지속적인 반복요구되는 분석 프로세스의 특성을 이해한 프로젝트 관리 방안 수립 중요
  • 분석 과제정의서를 기반으로 프로젝트를 시작하되, 지속적인 개선변경을 염두에 두고 기간 내에 가능한 최선의 결과도출할 수 있도록 프로젝트 구성원들과 협업하는 것이 분석 프로젝트 특징

분석 프로젝트의 관리방안

  • KSA ISO 21500
주제그룹개념 및 관련 프로세스
범위(Scope)- 분석 기획단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용되는 모델의 알고리즘에 따라 범위 빈번하게 변경
- 분석의 최종 결과물에 분석 보고서 형태인지 시스템인지에 따라 투입되는 자원 및 범위 또한 크게 변경되므로 사전에 충분한 고려 필요
시간(Time)- 데이터 분석 프로젝트는 초기에 의도했던 결과(모델)이 나오기 쉽지 않아 지속적으로 반복되어 많은 시간 소요
- 분석 결과에 대한 품질이 보장된다는 전제로 Time Boxing 기법으로 일정관리 진행이 필요
원가(Cost)- 외부 데이터를 활용한 데이터 분석인 경우 고가의 비용이 소요될 수 있어 사전에 충분한 조사 필요
- 오픈소스 툴 외에 프로젝트 수행 시 의도한 결과를 달성하기 위해 상용 버전 툴 필요할 가능성 존재
품질(Quality)- 분석 프로젝트를 수행한 결과에 대한 품질 목표를 사전에 수립하여 확정
- 프로젝트 품질은 품질 통제와 품질보증으로 나누어 수행
통합(Integration)- 프로젝트 관리 프로세스들이 통합적으로 운영될 수 있도록 관리
조달(Procurement)- 프로젝트 목적성에 맞는 외부 소싱을 운영
- PoC(Proof of Concept) 형태 프로젝트는 인프라 구매가 아닌 클라우드 등의 다양한 방안 검토
자원(Resource)- 고급 분석 및 빅데이터 아키텍처링을 수행할 수 있는 인력의 공급이 부족해 프로젝트 수행 전 전문가 확보 검토
리스크(Risk)- 분석에 필요한 데이터 미확보로 분석 프로젝트 진행이 어려울 수 있어 관련 위험 식별 및 대응방안 사전 수립
- 데이터 및 분석 알고리즘의 한계로 품질 목표를 달성하기 어려울 수 있어 그에 따른 대응방안 수립 필요
의사소통- 전문성이 요구되는 데이터 분석 결과를 모든 프로젝트 이해관계자가 공유할 수 있도록 해야함
- 프로젝트의 원활한 진행을 위한 다양한 의사소통체계 마련
이해관계자(Stakeholder)- 데이터 분석 프로젝트는 데이터 전문가, 비즈니스 전문가, 분석 전문가, 시스템 전문가 등 다양한 전문가가 참여하므로 이해관계자의 식별 및 관리 필요
  • 분석가가 분석 프로젝트에서 관리자 역할 수행하는 경우가 대부분이므로, 프로젝트 관리 영역에 대한 주요한 사항들을 체크포인트 형태로 관리해서 발생할 수 있는 이슈리스크를 숙지하고 미연에 방지

*CLD(Causal Loop Diagram)
: 선택(Choice)-이론(Theory)-결과(Consequence)의 형태로 비즈니스 운영 시나리오를 상세화하여 정의한 것

-선택 : 조직이 운영되어야 하는 방식에 대한 의사결정사항
ex)정책, 자산 ,거버넌스
-이론 : 선택에 따른 결과가 발생될 것에 대한 가정
-결과: 민감한 결과(Flexible Consequence)견고한 결과(Rigid Consequence)

-선택->결과에 대한 가정실현하기 위한 헬퍼분석 유즈케이스가 필요

-Activity System Map(활동 체계 지도)를 통해 도출된 기업의 전략 테마실행 활동

-좋은 CLD : 목표 일치성, 상호 강화, 선순환 구조, 모델의 강건성

  • 비즈니스 모방어려울 수록 강건한 비즈니스 모델
  • 견고한 결과 : 그 결과를 도출하는 선택에 따라 급속히 변화X->모방 어려움
  • 견고한 결과가 선순환으로 일부 구성될 경우 특히 모방이 어려움
  • 상호 보완적인 강화 요소가 많은 경우 모방 어려움

*분석 선순환 구조 맵
: 분석 목록선택결과로 모델링하여 선택과 결과의 연관성을 파악하고, 각 결과들을 의 관계로 표현하여 상호간 선순환이 되고 있는지 또는 상충되는 요소가 있는지 확인


*지연시간

  • 데이터 지연시간
  • 분석 지연시간
  • 의사결정 지연시간

*고객의 니즈를 구성하는 4가지 Customer Value Wedge

  • 기능적 가치(Functional Value)
  • 재무적 가치(Financial Value)
  • 무형의 가치(Intangible Value) : 공유성, 확장성, 접근성
  • 감성 가치(Emotional Value) : 즐거움, 자긍심, 자유

*전략 캔버스
: 지속 가능한 고성장을 이루기 위해 경쟁사고객뿐만 아니라 비고객 가치까지 흡수할 수 있는 신 시장을 창출해야 한다는 주장

  • 공급자의 눈이 아니라 고객의 시각에서 볼 때, 회사가 제공하는 가치가 다른 회사와 얼마나 차별화되는지 표현
  • 현재의 상품이나 서비스가 제공하지 못하는 가치를 찾아내고 새로운 전략방향을 설정할 수 있도록 도움을 주는 도구
  • 기업의 전략 목표계획에 대해 조직 내의 모든 구성원쉽게 이해하고, 커뮤니케이션하고, 창의적인 사고를 할 수 있도록 기업 전략수치가 아닌 비쥬얼한 차트 형태로 심플하게 표현

*비즈니스 컨텍스트

  • 시장요인
  • 산업요인
  • 주요 트렌드
  • 거시경제 요인
profile
MySQL DBA 신입

0개의 댓글