빅데이터 분석 및 전략 인사이트
분석목적 설정
- 사전에 분석목적을 정의하고 분석과정에서 수행할 과제를 정의한 후에 과제별 우선순위를 정의
빅데이터 분석기획 3가지 역량(데이터 사이언스역략)
데이터 사이언스트 역량은 수학과 통계, 정보기술, 도메인 지식이다.
데이터 사이언스트의 하드스킬과 소프트스킬
- 하드스킬
- 빅데이터 처리 및 분석에 필요한 이론적 지식, 기술적 숙련과 관련된 능력
- 머신러닝, 통계, 분산 컴퓨팅 등의 능력이 있다.
- 소프트스킬
- 데이터의 가치를 발견하고 기회를 만들 수 있는 능력
- 창의적 사고, 호기심, 논리적 비판, 스토리텔링, 등..
데이터 사이언스트의 스킬은 하드스킬과 소프트스킬이 있다.
빅데이터 분석의 기본 원칙
- 빅데이터를 분석할 때에는 질문에서 시작하라
- 기존 데이터와의 연결고리를 적극 활용하라
- 어려운 방식의 프로그래밍 방식과 툴은 피하는 것이 좋다.
- 피드백을 반드시 반영해서 최종 결과를 낸다.
빅데이터 분석 주제 유형
목표 시점별 분석기획
분석기획은 과제중심의 접근방법과 마스터 플랜 방식이 있다.
- 과제중심 접근방법 특징
- Speed & Test, 단기적 관점(Quick-Win), 문제해경(Problem Solvint)
- 마스터 플랜 접근방법
- Accuracy & Deploy, 장기적 관점, 분석과제정의
빅데이터 분석기획 시 고려사항
가용데이터(Available Data)
- 정형, 비정형 데이터, 반정형 데이터 등으로 분석을 위해서 데이터 확보한다.
- 수집된 데이터의 유형에 따라서 실제 분석하는 방법도 달라지고 적용가능한 솔루션도 다르다.
유즈케이스(Proper Use-case) 탐색
- 빅데이터 분석을 위해서 이전 프로젝트에서 사용된 시나리오를 활용하면 최대한 빠르고 정확하게 분석할 수 있다.
장애요소 사전제거(Low Barrier of Execution)
- 기업의 비즈니스 변화에 따라 변하는 환경에서는 지속적이고 반복적인 분석활동을 통해 변화하는 분석모델을 만드는 것이 중요
- 지속적인 분석활동을 하기위해 장애요소를 제거한다.
전략 인사이트 도출을 위한 필요역량
빅데이터 분석을 위한 가장 중요한 것은 데이터를 수집하는 것
데이터의 특징
존재론적 특징
데이터는 정성적 데이터와 정량적데이터로 구분되고 정성적 데이터는 웹, 파일이며 정량적 데이터는 수치, 도형으로 구성된다.
구분 |
정성적 데이터 |
정량적 데이터 |
데이터 형태 |
비정형 데이터 |
정형 및 반정형 데이터 |
데이터 특징 |
객체 하나가 함의된 정보를 가짐 |
여러 개의 속성들이 객체를 구성 |
데이터 구성 |
언어, 문자 등 |
수치, 도형, 기호 등 |
저장형태 |
웹, 파일 |
데이터베이스, 스프레드시트 |
소스위치 |
소셜 데이터와 같은 외부 시스템 |
DBMS 등의 내부 시스템 |
목적론적 특징
- 주체의 관점에 따라 원본 데이터의 속성 분리, 다른 데이터와의 병합 등이 발생하여 새로운 데이터 객체가 생성된다.
수집활동에서의 데이터 특징
- 데이터 수집활동은 수집된 데이터를 활용하기 위한 재생산 과정이다.
- 수집활동에서 데이터는 가역 데이터와 불가역 데이터로 구분할 수 있다.
가역 데이터는 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터이며 불가역 데이터는 원본 데이터와 전혀 다른 데이터로 재생산 되었기 때문에 추적이 불가능한 데이터이다.
가역데이터와 불가역데이터
구분 |
가역 데이터 |
불가역 데이터 |
환원성 |
가능 |
불가능 |
의존성 |
원본 데이터에 의존 |
원본 데이터에 독립적 |
원본 데이터와 관계 |
1대1 관계 |
1대N 혹은 N대1 |
데이터 처리과정 |
탐색 |
병합 |
활용분야 |
데이터 웨어하우징 / 로그수집 |
텍스트마이닝 / 소셜분석 |
데이터 확보계획 수립
수집이 필요한 이유와 수집을 하는 대상의 데이터에 대해 알아보았다면 이제 확보계획을 알아보자
필요 데이터 정의
- 분석목적에 맞는 데이터를 정의하고 데이터별로 확보가능 여부를 확인한다.
- 기업 내부에서 업무 해결을 위한 인터뷰를 통해서 적합한 데이터 목록을 작성한다.
데이터 확보방안
기업 내부 데이터 확보
보유 데이터 현황 조사
- 기관 내에 보유하고 있는 데이터 중에서 분석을 위해 필요한 데이터를 정의
- 내부 데이터도 데이터 품질이 좋은지 확인
- 데이터가 지속 업데이터 되는지 확인
- 분석에 필요만큼 데이터가 충분히 적재되었는지 확인
- 과거 데이터 변경이력이 있는지 확인
기업 외부 데이터 확보
- 데이터 보유기업, 데이터 명, 설명, 형태, 용량, 데이터 제공형태 등의 현황 분석
- 분석대상 데이터의 수집이 법률상 제약사항 확인
- 제약이 없는 경우 보유 기업과 협의하여 데이터 공유가능여부 확인
- 데이터 구매비용 고려
단계적 데이터 확보 방법
- 가트너는 단계적 데이터 확보 방법 발표, 데이터 확보는 Silos, Exchanges, Pools, Commons 단계로 분류된다.
단계 |
내용 |
방법 |
1단계 Silos |
조직의 독자적 데이터 생성, 저장중심의 단계 외부데이터는 인터넷을 통한 수집 가능 |
생성, 저장, 수집(검색) |
2단계 Exchanges |
기업의 데이터를 외부 기관들과 상호 교환하는 단계 |
연계 및 공유 |
3단계 Pool |
특정한 활동이나 목적을 위해 모인 연합, 그룹 등 상호 협력 장을 형성 표준화 된 데이터 풀 연계를 통해 국경을 초월한 정보 교환과 상호 이용 가능 |
참여, 협력 |
4단계 Commons |
오픈방식 플랫폼을 통한 데이터 공유 |
오픈, 창조 |
데이터 분석 방안 설정
분석과제 추진가능성 검토
- 데이터 분석 방안 설정은 분석과제를 사전에 정의하고 분석과제별 평가기준표로 분석과제 추진 가능성을 검토한다.
분석방안 수립
- 분석과제 검토가 완료되면 보유한 데이터와 분석 방법론 등을 활용하여 해당이슈를 해결하기 위한 분석방안을 수립
- 기초 분석단계 설정하고 이슈와 현황을 도출
- 각 팀과 함께 어떤 데이터를 활용해서 어떤 이슈를 해결 할 것인지 분석목표와 방안 제시
- 국내외 선행 사례 또는 전문가와 함께 실현 가능한 분석방안 구성과 성과목표 수립
- 데이터를 추가하거나 기존의 데이터를 변경하고 선행 사례의 분석 방법론에 대한 변경 사항들을 고려하여 이슈 해결방안을 모색한다.
- 분석방안은 기술적 해결책과 무관하게 정책 결정자와 최종 사용자 위주의 관점에서 기술한다.