1. 빅데이터의 이해
• 데이터의 구분
정량적 데이터 : 주로 숫자로 이루어진 데이터
정성적 데이터 : 문자와 같은 텍스트로 구성되며 함축적 의미
• 데이터의 유형
정형 : 테이블 구조 (DB), RDB, CSV, 스프레드시트
반정형 : 웹로그, 알람, XML, HTML, JSON, RSS
비정형 : 이미지, 오디오, 문자, NoSQL
• 데이터 기반 지식 구분
- 암묵지
- 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않은 지식
- 사회적으로 중요하지만 다른 사람에게 공유되기 어려움
- 형식지
- 명시적으로 알 수 있는 형태, 형식을 갖추어 표현되고 공유가 가능한 지식
- 전달과 공유가 용이함
• DIKW 피라미드
- Data
- 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실
- Infotmation
- 데이터의 가공, 처리와 데이터 간 연관 관계 속에서 의미가 도출된 것
- Knowledge
- 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것
- Wisdom
- 지식의 축적과 아이디어가 결합된 창의적인 산물
• 빅데이터의 특징
3V : Volume(규모), Variety(유형, 다양성), Velocity(속도)
5V : Value(가치), Veracity(품질)
• 빅데이터의 가치
경제적 자산, 불확실성 제거, 리스크 감소, 타분야 융합, 스마트 경쟁력
• 빅데이터의 가치 측정의 어려움
데이터 활용 방식, 가치 창출 방식, 분석 기술 발전, 데이터 수집 원가
• 빅데이터의 본질적인 변화
- 사전처리 -> 사후처리
- 표본조사 -> 전수조사
- 질 -> 양
- 인과관계 -> 상관관계
• 빅데이터 활용을 위한 3요소
- 인력 : 데이터사이언티스트
- 자원 : 빅데이터
- 기술 : 빅데이터플랫폼, AI
• 분석조직의 구조
- 집중구조(전담조직구성)
- 분산구조(분석인력들을 현업부서로 직접배치)
- 기능구조(별도의 조직이 없고, 해당 부서에서 수행)
• 데이터 사이언티스트 요구역량
- Hard Skill : 이론적 지식, 분석기술 숙련(이과적 지식)
- Soft Skill : 통찰력, 설득력 있는 전달, 협업 능력(문과적 지식)
• 데이터베이스 특징
공용 데이터, 통합 데이터, 저장된 데이터, 변화되는 데이터(공통저변)
• 데이터웨어하우스(DW) 특징
특징 : 주제지향성, 통합성, 시계열성, 비휘발성
구성요소 : 데이터모델, ETL(Extract, Transform, Load), ODS, DW메타데이터, OLAP, 데이터마이닝, 분석도구, 경영기반솔루션
- ETL
- 기업의 내부 또는 외부로부터 데이터를 추출, 정제 및 가공하여 데이터웨어하우스에 적재
- ODS
- DBMS 시스템에서 추출한 데이터를 통합적으로 관리
- 데이터 마이닝
• 데이터 산업의 진화순서
처리 -> 통합 -> 분석 -> 연결 -> 권리
• 인공지능 경쟁력 3요소
알고리즘, GPU, 풍부한 데이터
2. 데이터 분석 계획
• 분석의 기획
- 하향식 접근법(Top-Down)
- 비즈니스 문제 -> 분석 과제 도출
- 전략중심, 문제 중심 접근
- 상향식 접근법(Bottom-Up)
- 데이터 분석 -> 인사이트 발견
- 데이터 중심 접근
- 디자인 사고(Design Thinking)
- 데이터 분석 거버넌스 구성요소
- 조직, 운영 프로세스, 분석 인프라, 데이터 거버넌스, 분석교육
- KDD 분석방법론
- 통계적 패턴이나 지식을 찾기 위해 정리한 데이터
- CRISP-DM 분석방법론
- 유럽연합의 ESPRIT에서 시작, 주요 5개 업체들이 주도
- SEMMA 분석방법론
- SAS사의 주도로 만들어진 기술중심, 통계중심의 방법론
- 추출 -> 탐색 -> 수정-> 모델링 -> 평가
-
데이터 거버넌스
- 전사 차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영조직과 책임 등 표준화된 관리 체계 수립
- 데이터의 가용성, 유용성, 통합성, 보안성을 확보
마스터 데이터 : 마스터 파일을 형성하는 데이터
메타 데이터 : 다른 데이터를 설명하기 위해 사용되는 데이터
데이터 사전 : 자료의 이름, 표현방식, 의미, 사용방식 등을 저장
-
데이터 분석 성숙도
| 단계 | 설명 |
|---|
| Descriptive | 무엇이 일어났는가 |
| Diagnostic | 왜 발생했는가 |
| Predictive | 미래 예측 |
| Prescriptive | 최적 의사결정 |
-
데이터 처리 프로세스
-
사분면 분석
3 데이터 수집 및 저장 계획