[ADsP] 자격증 챌린지 3주차

Hyunjun Kim·2024년 10월 14일

ADsP (자격증)

목록 보기
5/18

03. 데이터 분석 기획 (다회독 필요, 과락 조심!)

01.데이터 분석 기획

1.1. 분석 기획의 정의와 특징

  1. 분석 기획 정의
  • 분석기획이란 분석을 수행 전, 분석 수행할 과제의 정의 및 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 작업
  • 어떤 목표를 달성하기 위해 어떤 데이터를 가지고 어떤 방식으로 수행할지에 대한 일련의 계획수립, 사전작업
  1. 분석기획의 특징
  • 데이터 사이언티스트의 요구 역량인 수학/통계적 지식, 분석 도구인 데이터 및 프로그래밍 기술, 해당 비즈니에 대한 이해와 전문성있는 시각 등이 요구됨.
  1. 분석 대상과 방법데 따른 4가지 분석 주제
분석대상What
knownUN-Known
분석Unknown최적화
Optimization
통찰력
Insight
방법Unknown해결책
Solution
발견
Discovery
  • 해결해야 할 문제, 대상 알고 방법 알면 최적화
  • 분석 대상 무엇인지 알지만 방법 모르면 솔루션
  • 분석 대상 모르고 방법도 모르면 발견
  • 분석 대상 모르지만 방법 알면 통찰력
  1. 목표 시점별 분석 기획 (여기도 집중)
    당면한 과제를 언제 해결해야 하는가에 대한 분석 기획을 두가지 종류로 나눠볼 수 있다.
  • 과제 중심적인 접근 방식 : 과제를 빠르게 해결해야 하는 경우
  • 장기적인 마스터플랜 방식 : 지속적인 분석 내재화를 위한 경우
당면한 분석 주제의 해결
(과제단위)
지속적 분석 문화 내재화
(마스터플랜 단위)
1차 목표Speed & TestAccuracy & Deploy
과제 유형Quick & WinLong Term View
접근 방식Problem Solving
(문제 해결을 위한 단기적 접근 방식)
Problem Definition
(분석 과제 정의를 위한 중장기적 마스터플랜 접근 방식

1.2. 분석 기획 시 고려사항 (이부분도 집중)

분석 기획 시 고려애햐 하는 사항 3가지
1. 가용 데이터 고려(Available Data)

  • 분석의 기본인 데이터가 확보될 수 있는지
  • 분석 위한 데이터 확보가 우선, 데이터 유형따라 분석 방법 다르기 때문에 유형에 대한 분석이 선행되어야 함
  1. 적절한 활용 방안 & 유스케이스 탐색 (Proper Business Use Case)
  • "바퀴를 재발명 하지 마라"격언처럼 기존 잘 구현/활용 되고 있는 유사 분석 시나리오 및 솔루션 최대 활용
  1. 장애요소에 대한 사전 계획 수립(Low Barrier Of Execution)
  • 분석 수행시 발생 가능한 장애요소에 대한 사전 계획 수립 필요
  • 일회용 분석으로 그치지 않고 조직 역량으로 내재화 하기 위해 충분하고 계속적인 교육 & 활용방안 등 변화 관리(Change Management)가 고려되어야 함

02. 분석 방법론 (가장 범위 넓음)

2.1. 분석 방법론 개요

분석 방법론 개요

데이터 분석이 효과적으로 기업 내 정착 위해서 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론이 필수적. 데이터분석 프로젝트는 개인의 역량 혹은 우연한 성공에 기인해서는 안 되고, 일정 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야 함. 따라서. 방법론은 상세한 절차(Procedure), 방법(Method), 도구와 기법(Tools & Techniques), 템플릿과 산출물(Templates & Outputs)로 구성되어 있어야 합니다.

여러 방법론을 통해 분석을 진행할 경우 감이 아닌 데이터 기반의 의사결정을 해야하는데 기업의 합리적 의사결정을 막는 방해요소3가지
1. 고정관념(Stereotype)
2. 편향된 생각(Bias)
3. 프레이밍 효과(Framing Effect) : 동일 사건이나 상황을 두고 개인 판단이나 선택이 다를 수 있는 현상

분석 방법론의 생성 과정
개인 암묵지가 조직의 형식지로 발전하는 형식화를 거쳐
이를 체계화해서 문서화 한 최적화된 형식지로 전개됨으로써 방법론이 만들어질 수 있다. 이렇게 만들어진 방법론은 다시 개인에게 전파되고 활용되는 내재화 과정을 거쳐 암묵지로 발전됨.

분석 방법론이 적용되는 업무 특성에 따른 모델

  1. 폭포수 모델 (Waterfall Model)
  • 단계를 거쳐 순차적 진행
  • 이전 단계 완료되어야 다음 단계 진행 가능 (하향식 방향)
  • 문제, 개선사항 발견될 경우 바로 이전 단계로 돌아가 피드백 수행할 수 있다.
  1. 프로토타입 모델 (Prototype Model)
  • 폭포수 모델의 단점 보완하기 위해 점진적으로 시스템 개발해 나가는 접근 방식
  • 고객의 요구 완전히 이해 못하는 경우 프로토타입 모델 적용
  • 일부분 먼저 개발해 사용자에게ㅔ 제공, 이후 사용자 요구분석, 정당성 점검, 성능 평가해 개선 작업 시행
  1. 나선형 모델 (Spiral Model)
  • 반복을 통해 점진적 개발
  • 프로토타입 모델과 유사하지만 사용자 요구보다 위험요소를 사전제거에 초점.
  • 처음 시도하는 프로젝트에는 적용이 용이하지만 관리체계를 효과적으로 갖추지 못하면 복잡도 상승
  1. 계층적 프로세스 모델
  • 일반적 분석 방법론은 계층적 프로세스 모델의 형태로 구성
  • 최상의 계층인 몇개의 단계로 구성, 하나의 단계는 여러 개의 테스크로 구성되고 하나의 테스크는 여러 개의 스텝으로 구성되어 있음(보통5단계사용)
  • 스텝은 WBS(Work Breakdown Structure)의 워크패키지에 해당되며 '입력 자료, 처리 및 도구, 출력'으로 구성된 단위 프로세스이다.
단계설명
단계 (Phase)프로세스 그룹을 통해 완성된 단계별 산출물 생성, 버전 관리 등을 통한 통제 필요
테스크 (Task)단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
스텝(Step)WBS 의 워크패키지에 해당하고 입력 자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스

전통적인 분석 방법론 두가지

KDD 분석 방법론 (이부분 무조건 출제)

  • KDD(Knowledge Discovery in Database)는 데이터로부터 통계적 패턴ㄴ이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스다.
  • 데이터마이닝, 기계학습, 인공지능, 패턴인식, 시각화 등에서 응용 가능한 구조를 가지고 있다.
  • KDD 분석 방법론 프로세스
    -데이터셋 선택 > 데이터 전처리 > 데이터 변환 > 데이터 마이닝 > 데이터 마이닝 결과 평가
단계설명
1단계
데이터셋 선택
-데이터셋 선택에 앞서 분석대상의 비즈니스/도메인에 대한 이해와
프로젝트 목표설정 필수

-데이터베이스에서 분석에 필요한 데이터를 선택하는 단계
(타깃 데이터 생성)
2단계
데이터셋 전처리
-추출된 분석 대상용 데이터 셋에 포함되어 있는 노이즈, 이상치,
결측치를 파악
해 제거하거나 의미있는 데이터로 재가공
-추가로 요구되는 데이터 셋이 있다면 데이터 선택 프로세스 재실행
3단계
데이터셋 변환
-데이터 전처리로 정제된 데이터에 분석 목적에 맞게 변수를 생성,
선택하고 데이터의 차원을 축소
-데이터마이닝 진행을 위해 데이터셋 변경
4단계
데이터셋 마이닝
-학습용 데이터를 이용해 분석 목적에 맞는 데이터 마이닝 기법 선택,
적절한 알고리즘 적용해 데이터마이닝 실행
-필요에 따라 데이터 전처리, 프로세스 추가 실행
5단계
해석과 평가
-데이터마이닝 결과에 대한 해석과 평가, 분석 목적과 일치성 확인.
발견한 지식을 업무에 활용하기 위한 방안 마련
-필요에 따라 데이터 선택 프로세스에서 데이터마이닝 프로세스를
반복 수행

CRISP-DM 분석 방법론

  • CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론 KDD 분석 방법론과 비슷하나 더 세분화되어 있다는 것이 차이점.
  • 1999 유럽연합에서 발표된 계층적 프로세스 모델
  • CRISP-DM 분석 방법론은 단계, 태스크, 스텝 3개의 레벨로 구성된 일반적인 계층적 프로세스 모델과 달리 단계, 일반화 태스크, 세분화 태스크, 프로세스 실행의 4개의 레벨과 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개의 6 단계로 구성
  • 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통해 단계별 완성도를 높이게 되어 있음

빅데이터 분석 방법론

3. 분석 과제 발굴

분석 과제 발굴 개요

분석 과제는 풀어야 할 다양한 문제를 데이터 분석 문제로 변환한 후 이해관계자들이 이해하고 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출됩니다. 분석 과제를 도출하기 위한 방식으로는 크게 하향식 접근 방법과 상향식 접근 방법이 있습니다

문제가 주어져 있는 상태에서 답을 구하는 하향식 접근 방식은 전통적으로 수행됐던 분석 과제 발굴 방식입니다. 그러나 대규모의 다양한 데이터를 생성하고 빠르게 변하는 기업 환경에서는 문제 자체의 변화가 심해 정확하게 문제를 사전에 정의하는 것이 어려워지고 있습니다. 분석 대상을 알고 있다면 하향식이, 모른다면 상향식 접근법을 사용합니다.

분석 과제 발굴을 두가지 방식으로 나누었지만 실제 의사결정을 할 때는 하향식, 상향식 접근 방법이 혼용되어 사용되며, 분석의 가치를 높일 수 있는 최적의 의사결정은 두 접근 방식이 상호 보완 관계일 때 가능합니다

하향식 접근법

문제 탐색 → 문제 정의 → 해결 방안 탐색 → 타당성 평가

1단계 : 문제 탐색 단계

  • 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하고 식별하는 것이 중요
  • 과제 발굴 단계에서는 세부적인 구현 및 솔루션에 초점을 맞추는 게 아니라, 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요
  1. 비즈니스 모델 기반 문제 탐색
  • 기업 내•외부 환경을 포괄하는 비즈니스 모델이라는 틀을 활용
  • 비즈니스모델 캔버스의 9가지 블록을 단순화하여 업무(Operation), 제품(Product), 고객(Customer) 단위로 문제를 발굴하고 이를 관리하는 규제와 감사(Audit & Regulation)영역과 지원 인프라 (IT & Human Rasource) 두 가지 영역에 대한 기회를 추가로 도출하는 작업을 수행

  1. 분석 기회 발굴의 범위 확장 → 각 관점을 고려하며 비지니스 문제를 발굴하는 방법
  • 거시적 관점의 메가트랜드

  • 경쟁자 확대 관점
    현재 수행하고 있는 사업 영역의 직접 경쟁사 및 제품•서비스뿐만 아니라 대체재와 신규 진입자 등으로 관점을 확대하여 위협이 될 수 있는 상황에 대한 분석 기회 발굴의 폭을 넓혀서 탐색한다.

  • 시장의 니즈 탐색 관점
    현재 수행하고 있는 사업에서의 직접 고객뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널 및 고객의 구매와 의사결정에 영향을 미치는 영향자들

  • 역량의 재해석 관점
    현재 해당 조직 및 기업이 보유한 역량뿐만 아니라 해당 조직의 비즈니스에 영향을 끼치는 파트너 네트워크를 포함한 활용 가능한 역량을 토대로 폭넓은 분석 기회를 탐색한다.

  1. 외부 참조 모델 기반 문제 탐색 및 유스케이스 정의
  • 유사 동종 업계에서 기존에 수행한 문제 탐색 및 분석 과제 등을 활용하는 것 역시 중요한 시사점을 도출한다.
  • 유사 동종 사례 벤치마킹을 통한 분석 기회 발굴은 산업별, 서비스별 분석 테마 후보 그룹(POOL)을 통한 가장 빠르고 쉬운 방식(Quick & Easy)으로 분석 기회가 무엇인지 아이디어를 얻는 브레인스토밍을 활용한 방법이다.
  • 현재 비즈니스 모델 및 유사, 동종 업계의 탐색을 통해 발견된 문제들을 세부과제로 도출하기 전에 먼저 '분석 유스케이스(Analytics Use Cases)'로 정의한다. 이렇게 정의한 다음, 향후 어떻게 풀어나가야 할지에 대한 방법과 그로 인한 효과도 함께 명시한다.
  • 분석 유스케이스란 분석을 적용했을 때 업무 흐름을 개념적으로 설명한 것으로 프로세스 혁신 수단으로 활용되기도 한다.

2단계 : 문제 정의 단계

  • 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
  • 앞서 수행한 문제 탐색의 단계가 무엇을(What), 어떤 목적으로(Why) 수행해야 하는지에 대한 관점이라면, 문제 정의 단계는 이를 달성하기 위해 필요한 데이터 및 기법(How)을 정의하기 위한 데이터 분석의 문제로 변환을 수행

문제 정의의 예시

3단계 : 해결 방안 탐색 단계

데이터 분석 문제를 해결하기 위한 방안을 모색하는 단계

고려해야할 사항

  • 기존 정보 시스템의 단순한 보완으로 분석이 가능한지 고려
  • 엑셀 등의 간단한 도구로 분석이 가능한지 고려
  • 하둡 등 분산병렬처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도있는 방안 고려

해결 방안 탐색 단계 프로세스

4단계 : 타당성 검토 단계

탐색한 해결 방법이 타당한지 검토하는 단계로 도출된 분석 문제나 가설에 대한 대안을 과제화하기 위해서는 두 가지의 다각적인 타당성 분석이 수행되어야 한다

  1. 경제적 타당성
  • 비용 대비 편익 분석 관점의 접근 필요
  • 비용 항목은 데이터, 시스템, 인력, 유지보수 등과 같은 분석 비용으로 구성되며 편익으로는 분석 결과를 적용함으로써 추정되는 실질적 비용 절감, 추가적 매출과 수익 등과 같은 경제적 가치로 산출된다.
  1. 데이터 및 기술적 타당성
  • 데이터 존재 여부, 분석 시스템 환경, 분석 역량이 필요
  • 수행될 수 없는 분석을 추진하는 것 역시 경제적 손실이 따르기 때문에 경제적 가치가 뛰어난 분석이라 하더라도 분석의 수행 가능 여부를 따져봐야 한다.
  • 기술적 타당성 분석 시 역량 확보 방안을 사전에 수립하고 이를 효과적으로 평가하기 위해서는 비즈니스 지식과 기술적 지식이 요구된다.

상향식 접근법

상향식 접근법 개요

상향식 접근법은 다양한 원천 데이터로부터 통찰과 지식을 얻는 접근 방법입니다. 예를 들어 50개의 옷이 있다고 했을 때, 내게 맞는 원하는 스타일을 찾기 위해 무수히 많은 조합으로 코디를 시도해 볼 수 있습니다. 이렇게 먼저 분석을 시작하고 그 결과로부터 가치가 있는 문제를 도출하는 방법입니다.

디자인 사고(Design Thinking) 프로세스

디자인 사고는 수렴과 발산을 반복하며 창의적인 아이디어를 도출하는 방식입니다. 스탠퍼드대학 d.school의 디자인 씽킹은 전통적인 분석적 사고를 극복하기 위해 나온 상향식 접근법으로 상향식 접근법은 사물을 있는 그대로 인식하는 What 관점에서 보아야 하기에 이 점을 고려하여 d.school에서는 첫 단계로 감정이입(Empathize)을 특히 강조하고 있습니다.

지도학습과 비지도 학습

  1. 지도 학습
  • 명확한 목적하에 데이터분석을 실시하는 것
  • 지도학습이란 정답이 있는 데이터를 활용하여 분석 모델을 학습시키는 것
  • 분류, 추측, 예측, 최적화를 통해 사용자의 주도 하에 분석을 실시하고 지식을 도출하는 것이 목적
  • 예시 : 머신러닝, 의사결정 트리, 인공신경망 모형, 분류 분석
  1. 비지도 학습
  • 지도 학습과 달리 정답을 알려주지 않고 학습하는 것
  • 정답 레이블이 없는 데이터를 비슷한 특징을 가진 데이터끼리 군집화하여 새로운 데이터에 대한 결과를 예측
  • 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것
  • 일반적으로 상향식 접근방식의 데이터 분석은 비지도학습에 의해 수행
  • 예시 : 장바구니 분석, 기술통계, 프로파일링, 군집 분석

시행착오를 통한 문제 해결 (프로토타이핑 접근법)

프로토타이핑 접근법은 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해 보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법을 말한다.

하향식 접근법은 문제를 먼저 정의할 수 있으며 그 문제 해결을 위한 데이터가 조직에 존재할 경우에 효과적이다. 그럴 수 없는 경우에는 상향식 접근법 중 하나인 프로토타이핑 접근법이 좋은 대안이 될 수 있다.


프로토타이핑 접근법 프로세스

가설의 생성 → 디자인에 대한 실험 → 실제 환경에서의 테스트 → 테스트 결과로부터 인사이트 도출 및 가설 확인



프로토타이핑 접근법이 필요한 경우

  • 문제에 대한 인식 수준이 낮거나 불명확할 경우

    이번에 접해보지 못한 새로운 문제일 경우 사용자 및 이해관계자는 프로토타입을 이용하여 문제를 이해하고, 이를 바탕으로 구체화하는 데 도움을 받을 수 있다.

  • 필요 데이터의 존재 여부가 불확실한 경우

    사용자와 분석가 간의 반복적이고 순환적인 협의 과정이 필요하다.

  • 데이터의 사용 목적이 고정되지 않고 변화할 경우

    데이터의 가치는 사전에 정해진 수집목적에 따라 확정되는 것이 아니고, 그 가치가 지속적으로 변화할 수 있다.



4. 분석 프로젝트 관리

분석 프로젝트 관리 개요

분석 프로젝트의 특성

  • 분석가의 목표는 분석의 정확도를 높이는 것뿐만 아니라 원하는 결과를 사용자가 원활하게 활용할 수 있도록 고려해야 한다.
  • 데이터의 영역과 결과를 활용할 비즈니스 영역의 중간에서 분석 모델을 통한 조율을 수행하는 조정자의 역할을 수행한다.
  • 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 애자일 프로젝트 관리 방식에 대한 고려도 필요하다. 데이터 분석의 지속적인 반복 및 개선을 통하여 원했던 결과에 가까워지는 형태로 진행될 수 있도록 적절한 관리 방안 수립이 필요하다.

분석 과제의 5가지 주요 속성을 고려한 관리

분석 과제 관리 방안

분석 프로젝트는 데이터 분석의 특성을 살려 프로젝트관리 지침(Guidence on Project Management,
KS A IS0 21500:2013)을 기본 가이드로 활용할 필요가 있습니다. 프로젝트관리 지침의 프로젝트 관리 체계는 통합(Integration), 이해관계자(Stakeholder), 범위(Scope), 자원(Resource), 시간(Time), 원가(Cost), 리스크(Risk), 품질(Quality), 조달(Procurement), 의사소통(Communication)의 10개의 주제 그룹으로 구성되어 있습니다.

profile
Data Analytics Engineer 가 되

0개의 댓글