ADsP - 데이터 사이언스와 전략 인사이트

이강민·2022년 9월 29일
0

ADsP

목록 보기
3/19
post-thumbnail

빅데이터 분석 및 전략 인사이트

분석목적 설정

  • 사전에 분석목적을 정의하고 분석과정에서 수행할 과제를 정의한 후에 과제별 우선순위를 정의

빅데이터 분석기획 3가지 역량(데이터 사이언스역략)


데이터 사이언스트 역량은 수학과 통계, 정보기술, 도메인 지식이다.

데이터 사이언스트의 하드스킬과 소프트스킬

  • 하드스킬
    • 빅데이터 처리 및 분석에 필요한 이론적 지식, 기술적 숙련과 관련된 능력
    • 머신러닝, 통계, 분산 컴퓨팅 등의 능력이 있다.
  • 소프트스킬
    • 데이터의 가치를 발견하고 기회를 만들 수 있는 능력
    • 창의적 사고, 호기심, 논리적 비판, 스토리텔링, 등..

데이터 사이언스트의 스킬은 하드스킬과 소프트스킬이 있다.

빅데이터 분석의 기본 원칙

  • 빅데이터를 분석할 때에는 질문에서 시작하라
  • 기존 데이터와의 연결고리를 적극 활용하라
  • 어려운 방식의 프로그래밍 방식과 툴은 피하는 것이 좋다.
  • 피드백을 반드시 반영해서 최종 결과를 낸다.

빅데이터 분석 주제 유형

  • 최적화
    • 분석대상 및 분석방법을 알고 있는 경우
  • 솔루션
    • 분석대상은 알지만 방법을 모르는 경우
  • 통찰
    • 분석대상은 불명확하지만 분석방법을 아는 경우
  • 발견
    • 분석대상과 분석방법을 모를 경우

목표 시점별 분석기획

분석기획은 과제중심의 접근방법과 마스터 플랜 방식이 있다.

  • 과제중심 접근방법 특징
    • Speed & Test, 단기적 관점(Quick-Win), 문제해경(Problem Solvint)
  • 마스터 플랜 접근방법
    • Accuracy & Deploy, 장기적 관점, 분석과제정의

빅데이터 분석기획 시 고려사항

가용데이터(Available Data)

  • 정형, 비정형 데이터, 반정형 데이터 등으로 분석을 위해서 데이터 확보한다.
  • 수집된 데이터의 유형에 따라서 실제 분석하는 방법도 달라지고 적용가능한 솔루션도 다르다.

유즈케이스(Proper Use-case) 탐색

  • 빅데이터 분석을 위해서 이전 프로젝트에서 사용된 시나리오를 활용하면 최대한 빠르고 정확하게 분석할 수 있다.

장애요소 사전제거(Low Barrier of Execution)

  • 기업의 비즈니스 변화에 따라 변하는 환경에서는 지속적이고 반복적인 분석활동을 통해 변화하는 분석모델을 만드는 것이 중요
  • 지속적인 분석활동을 하기위해 장애요소를 제거한다.

전략 인사이트 도출을 위한 필요역량

빅데이터 분석을 위한 가장 중요한 것은 데이터를 수집하는 것

데이터의 특징

존재론적 특징

데이터는 정성적 데이터와 정량적데이터로 구분되고 정성적 데이터는 웹, 파일이며 정량적 데이터는 수치, 도형으로 구성된다.

구분 정성적 데이터 정량적 데이터
데이터 형태 비정형 데이터 정형 및 반정형 데이터
데이터 특징 객체 하나가 함의된 정보를 가짐 여러 개의 속성들이 객체를 구성
데이터 구성 언어, 문자 등 수치, 도형, 기호 등
저장형태 웹, 파일 데이터베이스, 스프레드시트
소스위치 소셜 데이터와 같은 외부 시스템 DBMS 등의 내부 시스템

목적론적 특징

  • 주체의 관점에 따라 원본 데이터의 속성 분리, 다른 데이터와의 병합 등이 발생하여 새로운 데이터 객체가 생성된다.

수집활동에서의 데이터 특징

  • 데이터 수집활동은 수집된 데이터를 활용하기 위한 재생산 과정이다.
  • 수집활동에서 데이터는 가역 데이터와 불가역 데이터로 구분할 수 있다.
    가역 데이터는 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터이며 불가역 데이터는 원본 데이터와 전혀 다른 데이터로 재생산 되었기 때문에 추적이 불가능한 데이터이다.

가역데이터와 불가역데이터

구분 가역 데이터 불가역 데이터
환원성 가능 불가능
의존성 원본 데이터에 의존 원본 데이터에 독립적
원본 데이터와 관계 1대1 관계 1대N 혹은 N대1
데이터 처리과정 탐색 병합
활용분야 데이터 웨어하우징 / 로그수집 텍스트마이닝 / 소셜분석

데이터 확보계획 수립

수집이 필요한 이유와 수집을 하는 대상의 데이터에 대해 알아보았다면 이제 확보계획을 알아보자

필요 데이터 정의

  • 분석목적에 맞는 데이터를 정의하고 데이터별로 확보가능 여부를 확인한다.
  • 기업 내부에서 업무 해결을 위한 인터뷰를 통해서 적합한 데이터 목록을 작성한다.

데이터 확보방안

기업 내부 데이터 확보

보유 데이터 현황 조사

  • 기관 내에 보유하고 있는 데이터 중에서 분석을 위해 필요한 데이터를 정의
  • 내부 데이터도 데이터 품질이 좋은지 확인
  • 데이터가 지속 업데이터 되는지 확인
  • 분석에 필요만큼 데이터가 충분히 적재되었는지 확인
  • 과거 데이터 변경이력이 있는지 확인

기업 외부 데이터 확보

  • 데이터 보유기업, 데이터 명, 설명, 형태, 용량, 데이터 제공형태 등의 현황 분석
  • 분석대상 데이터의 수집이 법률상 제약사항 확인
  • 제약이 없는 경우 보유 기업과 협의하여 데이터 공유가능여부 확인
  • 데이터 구매비용 고려

단계적 데이터 확보 방법

  • 가트너는 단계적 데이터 확보 방법 발표, 데이터 확보는 Silos, Exchanges, Pools, Commons 단계로 분류된다.
    단계 내용 방법
    1단계 Silos 조직의 독자적 데이터 생성, 저장중심의 단계
    외부데이터는 인터넷을 통한 수집 가능
    생성, 저장, 수집(검색)
    2단계 Exchanges 기업의 데이터를 외부 기관들과 상호 교환하는 단계 연계 및 공유
    3단계 Pool 특정한 활동이나 목적을 위해 모인 연합, 그룹 등 상호 협력 장을 형성
    표준화 된 데이터 풀 연계를 통해 국경을 초월한 정보 교환과 상호 이용 가능
    참여, 협력
    4단계 Commons 오픈방식 플랫폼을 통한 데이터 공유 오픈, 창조

데이터 분석 방안 설정

분석과제 추진가능성 검토

  • 데이터 분석 방안 설정은 분석과제를 사전에 정의하고 분석과제별 평가기준표로 분석과제 추진 가능성을 검토한다.

분석방안 수립

  • 분석과제 검토가 완료되면 보유한 데이터와 분석 방법론 등을 활용하여 해당이슈를 해결하기 위한 분석방안을 수립
  • 기초 분석단계 설정하고 이슈와 현황을 도출
  • 각 팀과 함께 어떤 데이터를 활용해서 어떤 이슈를 해결 할 것인지 분석목표와 방안 제시
  • 국내외 선행 사례 또는 전문가와 함께 실현 가능한 분석방안 구성과 성과목표 수립
  • 데이터를 추가하거나 기존의 데이터를 변경하고 선행 사례의 분석 방법론에 대한 변경 사항들을 고려하여 이슈 해결방안을 모색한다.
  • 분석방안은 기술적 해결책과 무관하게 정책 결정자와 최종 사용자 위주의 관점에서 기술한다.
profile
NullpointException

0개의 댓글