Intro
- 책을 읽으며 책 내용을 정리하려합니다.
- 하루에 한 챕터정도 읽으며 책의 내용을 상세하게는 정리하지 않고 키워드나 느낌점을 위주로 정리하려합니다.
Contents
데이터 수집
- 여러 소스의 데이터들을 모으는 작업이 필요
- 처리방법으로는 Bulk형, Streaming형 존재
데이터 처리
- 스트림처리와 배치처리
- 목적에 따라 그 처리방식을 다르게 해야함을 인지
데이터 저장
- 분산 스토리지 (ex. S3, NoSQL database)
분산 데이터 처리
- 분산 스토리지 상의 데이터를 SQL로 처리하기 위해 Hive와 같은 쿼리엔진 도입
- ETL 프로세스를 거쳐 데이터 웨어하우스에 적제
데이터 분석기반의 단계적 발전
- Ad hoc Analysis: 일회성 데이터 분석
- 자동화를 생각하지 않고 일회성으로 수작업 진행
데이터 분석
- 확증적 데이터 분석 (Confirmatory Data Analysis)
- 탐색적 데이터 분석 (Exploratory Data Analysis)
KPI
- Key Performance Indicator: 업계마다 다르지만 중요한 지표로 사용되는 것들
- DAU: Daily Active User
- Retention: 서비스를 계속해서 이용하고 있는 유저의 비율
- ARPPU: 유료 고객 1인당 평균 매출
- CTR: Click Through Rate (광고 표시 횟수에 대한 클릭 비율)
- CPC: Cost Per Click (1회 클릭에 대해서 지불한 광고비)
- CPA: Cost Per Acquistion (1건의 고객 취득을 위해 지불된 광고비)
DM
Outro
- 책에서 DW, DM, DL 에 대해 그림과 함께 알려주고 있지만 굳이 정리하지 않았습니다.
- Data_Source - DL - DW - DM - BI_Tool 과 같은 일련의 흐름을 잘 정리해주어 보기 좋았습니다.
- 각 요소의 필요성에 대해 잘 정리된 것 같아 좋았습니다.
- 1장을 빠르게 훑어봤는데 빅데이터에 대해 전체적으로 살펴볼 수 있었고 빅데이터로 들어가기전 스몰데이터의 처리에 대해서도 언급해주는 점이 좋았습니다.