지식은 나눌수록 커지잖아요

지식은 나눌수록 커지잖아요

[독서] 빅데이터를 지탱하는 기술 #2

이동욱·2022년 3월 13일

0

독서

목록 보기

2/4

Intro

책을 읽으며 책 내용을 정리하려합니다.
하루에 한 챕터정도 읽으며 책의 내용을 상세하게는 정리하지 않고 키워드나 느낌점을 위주로 정리하려합니다.

Contents

데이터 수집

여러 소스의 데이터들을 모으는 작업이 필요
처리방법으로는 Bulk형, Streaming형 존재

데이터 처리

스트림처리와 배치처리
목적에 따라 그 처리방식을 다르게 해야함을 인지

데이터 저장

분산 스토리지 (ex. S3, NoSQL database)

분산 데이터 처리

방법

분산 스토리지 상의 데이터를 SQL로 처리하기 위해 Hive와 같은 쿼리엔진 도입
ETL 프로세스를 거쳐 데이터 웨어하우스에 적제

데이터 분석기반의 단계적 발전

Ad hoc Analysis: 일회성 데이터 분석
- 자동화를 생각하지 않고 일회성으로 수작업 진행

데이터 분석

확증적 데이터 분석 (Confirmatory Data Analysis)
탐색적 데이터 분석 (Exploratory Data Analysis)

KPI

Key Performance Indicator: 업계마다 다르지만 중요한 지표로 사용되는 것들
- DAU: Daily Active User
- Retention: 서비스를 계속해서 이용하고 있는 유저의 비율
- ARPPU: 유료 고객 1인당 평균 매출
- CTR: Click Through Rate (광고 표시 횟수에 대한 클릭 비율)
- CPC: Cost Per Click (1회 클릭에 대해서 지불한 광고비)
- CPA: Cost Per Acquistion (1건의 고객 취득을 위해 지불된 광고비)

DM

자동화를 생각할 경우 갖추는 것을 권장

Outro

책에서 DW, DM, DL 에 대해 그림과 함께 알려주고 있지만 굳이 정리하지 않았습니다.
- Data_Source - DL - DW - DM - BI_Tool 과 같은 일련의 흐름을 잘 정리해주어 보기 좋았습니다.
- 각 요소의 필요성에 대해 잘 정리된 것 같아 좋았습니다.
1장을 빠르게 훑어봤는데 빅데이터에 대해 전체적으로 살펴볼 수 있었고 빅데이터로 들어가기전 스몰데이터의 처리에 대해서도 언급해주는 점이 좋았습니다.

공부해서 남주자

이전 포스트

[독서] 빅데이터를 지탱하는 기술 #1

다음 포스트

[독서] 빅데이터를 지탱하는 기술 #3

0개의 댓글