ADsP, 20230424

cptkuk91·2023년 4월 24일
0

ADsP

목록 보기
3/4

데이터 분석 기획


분석 대상과 방법에 따른 4가지 분석 주제

  • 분석 대상이 무엇인지 알고, 분석 방법도 알고 있다면 최적화(Optimization)
  • 분석 대상이 무엇인지 알고, 분석 방법을 모른다면 해결책(Solution)
  • 분석 대상이 무엇인지 모르고, 분석 방법은 알고 있다면 통찰(Insight)
  • 분석 대상이 무엇인지 모르고, 분석 방법을 모르고 있다면 발견(Discovery)

분석 기획 시 고려사항

  • 가용 데이터 고려
    분석의 기본이 되는 데이터가 확보될 수 있는지에 대한 고려가 필요하다.
    데이터가 존재하더라도 데이터 유형에 따라 분석 방법이 다르기 때문에 데이터 유형에 대한 분석이 선행적으로 이루어져야 한다.
  • 적절한 활용 방안과 유스케이스 탐색
    "바퀴를 재발명하지 마라"라는 격언처럼 기존에 잘 구현되어 활용되고 있는 유사 시나리오 및 솔루션을 최대한 활용하는 것이 중요하다.
    과거 유사한 분석 사례가 있다면 그 시나리오를 최대한 활용하여 과거의 실패를 반복하지 않거나 또는 성공적인 분석을 위한 가이드로서 참조
  • 장애요소에 대한 사전 계획 수립
    분석을 수행할 때 발생 가능한 장애요소에 대한 사전 계획 수립이 필요하다.

기업의 합리적 의사결정 방해요소

  1. 고정 관념
  2. 편향된 생각
  3. 프레이밍 효과: 동일한 사건이나 상황을 두고 개인의 판단이나 선택이 달라질 수 있는 현상
    ex) 물이 반밖에 없군 / 물이 반이나 있군

분석 방법론이 적용되는 업무 특성에 따른 모델

폭포수 모델: 단계를 거쳐 순차적으로 진행하는 방법으로, 현재 단계가 완료되어야 다음 단계로 진행될 수 있는 하향식 방향으로 진행된다.

계층적 프로세스 모델

  • 최상의 계층인 몇 개의 단계로 구성되어 있고 하나의 단계는 여러 개의 태스크로 구성되고 하나의 태스크는 여러 개의 스텝으로 구성되어 있다.
  • 스텝은 WBS(Work Breakdown Structure)의 워크패키지에 해당되며, 입력(Input) - 처리 및 도구(Process & Tool) - 출력(Output)으로 구성된 단위 프로세스다.

KDD 분석 방법론 프로세스

  1. 데이터셋 선택: 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수
  2. 데이터 전처리: 결측치, 이상치 파악하여 제거하거나 의미 있는 데이터로 재가공
  3. 데이터 변환: 변수를 생성/선택하고 데이터의 차원을 축소
  4. 데이터 마이닝: 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘을 적용
  5. 해석과 평가: 분석 목적과의 일치성을 확인하고 평가 / 발견한 지식을 업무에 활용하기 위한 방안 마련

CRISP-DM 분석 방법론

이해 가 중요하다.
1. 업무 이해: 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
2. 데이터 이해: 조기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
3. 데이터 준비: 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터셋 편성, 데이터 통합
4. 모델링: 모델링 기법 선택, 모델 테스트 계획 선택, 모델 작성, 모델 평가
5. 평가: 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
6. 전개: 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

빅데이터 분석 방법론 (필수)

  • 1단계 분석 기획: 비즈니스 이해 및 범위 설정 / 프로젝트 정의 및 계획 수립 / 프로젝트 위험계획 수립
  • 2단계 데이터 준비: 필요 데이터 정의 / 데이터 스토어 설계 / 데이터 수집 및 정합성 검정
  • 3단계 데이터 분석: 분석용 데이터 준비 / 텍스트 분석 / 탐색적 분석 / 모델링 / 모델 평가 및 검증 / 모델 적용 및 운영 방안 수립
  • 4단계 시스템 구현: 설계 및 구현 / 시스템 테스트 및 운영
  • 5단계 평가 및 전개: 모델 발전계획 수립 / 프로젝트 평가 및 보고

분석 과제 탐색 방법 (필수)

  • 하향식 접근법: 문제가 주어졌을 때 우리가 해결해야 할 과제가 무엇인지를 찾는 Top-Down 수행 방법으로, 각 과정이 체계적으로 단계화되어 문제를 해결하는 방식이다.
  • 상향식 접근법: 대규모 데이터가 생성되고 빠르게 변하는 현대에서는 문제가 무엇인지 사전에 정의하는 것이 어렵기 때문에 다양한 데이터의 조합 속에서 인사이트를 찾아내는 Bottom-Up 방식이다.
    (어떤 결과를 생각하고 연구를 하는게 아니라, 일단 데이터를 분석하면서 A데이터를 통해서 알 수 있는 사실, B데이터를 통해 알 수 있는 사실을 파악)
  • 분석 대상을 알고 있다면 하향식 접근법 / 모른다면 상향식 접근법을 사용한다.
  • 실제 분석 과정에서는 분석 과제 발굴을 위해 하향식 접근법과 상향식 접근법을 혼용해서 사용하는 경우가 많다.

상향식 접근법

  • 디자인 씽킹
    수렴과 발산을 반복하면서 창의적이고 혁신적인 아이디어를 도출
    수럼과 발산 나오면 디자인씽킹이고, 상향식 접근법

하향식 접근법 (필수)

  • 1단계 문제 탐색 단계 (필수!!)
    비즈니스 모델 탐색 기법
    비즈니스 모델 캔버스의 9가지 블록을 5가지로 단순화한 탐색 기법이다. (주관식으로 등장)

분석 기회 발굴 범위의 확장

분석 기회를 어떤 느낌으로 발굴할까요? 라는 점에 초점을 둬야 한다.

  • 거시적 관점: 문제 혹은 변화가 기업에 주는 영향을 탐색한다.
  • 경쟁자 확대 관점: 기업에 위협이 될 상황을 탐색한다. (대체제, 경쟁자, 신규 진입자)
  • 시장의 니즈 탐색: 시장의 니즈 탐색 관점에서 문제를 탐색한다. (고객, 채널, 영향자들)
  • 역량의 재해석: 역량의 재해석 관점에서 다시 기업 내부를 둘러보도록 한다. (내부 역량, 파트너와 네트워크)

분석 유스 케이스

현재 비즈니스 모델 및 유사, 동종 업계 탐색을 통해 발견된 문제들을 세부과제로 도출하기 전 어떻게 풀어나가야 할지에 대한 방법과 그로 인한 효과도 함께 명시한다.

시스템을 분석하는 사람과 사용할 사람이 함께 시스템의 사용 방법을 결정하는데에 도움을 줌

문제 정의 단계

비즈니스 문제 탐색: 고객이 항공권 발권에 너무 많은 시간을 소요하고 있다.

데이터의 문제: 타 항공사 대비 항공권 발권에 소요되는 시간을 비교 분석

해결 방안 탐색

데이터의 문제: 타 항공사 대비 항공권 발권에 소요되는 시간을 비교 분석

해결 방안 탐색: 분석 역량 확보, 기존 시스템 활용

지도학습과 비지도 학습 (필수)

  • 지도학습: 정답이 있는 데이터를 활용하여 분석 모델을 학습시키는 것이다.
    중요한 건 레이블(Label)이라는 단어가 나오면 지도학습이다. 범주형인 분류와 연속형인 회귀로 나누어진다.
    ex) 머신러닝, 의사결정 트리, 인공신경망 모형, 분류 분석
  • 비지도학습: 정답을 알려주지 않고 학습하는 것이다.
    입력받은 것들을 군집으로 만든다. 데이터가 더 많이 필요하다.
    일반적으로 지도학습보다 부족한 부분이 있을 수 있지만, 비지도학습을 해야만 하는 상황이 발생한다.
    ex) 장바구니 분석(고객의 장바구니 분석은 정답이 없다.), 기술 통계, 프로파일링, 군집 분석, 주성분분석, 다차원척도

시행착오를 통한 문제 해결 (프로토타이핑 접근)

우선 만들어보고, 시행착오를 겪는다. 최종은 아니다. 따라서 수정을 하고, 계속 개발해서 완성품을 만든다.

정확도와 정밀도

  • 정확도는 모델과 실제 값 간의 차이가 적다.
  • 정밀도는 반복적으로 모델을 사용했을 때 모델 값들의 편차 수준

profile
메일은 매일 확인하고 있습니다. 궁금하신 부분이나 틀린 부분에 대한 지적사항이 있으시다면 언제든 편하게 연락 부탁드려요 :)

0개의 댓글