[독서] 빅데이터를 지탱하는 기술 #2

이동욱·2022년 3월 13일
0

독서

목록 보기
2/4

Intro

  • 책을 읽으며 책 내용을 정리하려합니다.
  • 하루에 한 챕터정도 읽으며 책의 내용을 상세하게는 정리하지 않고 키워드나 느낌점을 위주로 정리하려합니다.

Contents

데이터 수집

  • 여러 소스의 데이터들을 모으는 작업이 필요
  • 처리방법으로는 Bulk형, Streaming형 존재

데이터 처리

  • 스트림처리와 배치처리
  • 목적에 따라 그 처리방식을 다르게 해야함을 인지

데이터 저장

  • 분산 스토리지 (ex. S3, NoSQL database)

분산 데이터 처리

  • 방법
  1. 분산 스토리지 상의 데이터를 SQL로 처리하기 위해 Hive와 같은 쿼리엔진 도입
  2. ETL 프로세스를 거쳐 데이터 웨어하우스에 적제

데이터 분석기반의 단계적 발전

  • Ad hoc Analysis: 일회성 데이터 분석
    • 자동화를 생각하지 않고 일회성으로 수작업 진행

데이터 분석

  • 확증적 데이터 분석 (Confirmatory Data Analysis)
  • 탐색적 데이터 분석 (Exploratory Data Analysis)

KPI

  • Key Performance Indicator: 업계마다 다르지만 중요한 지표로 사용되는 것들
    • DAU: Daily Active User
    • Retention: 서비스를 계속해서 이용하고 있는 유저의 비율
    • ARPPU: 유료 고객 1인당 평균 매출
    • CTR: Click Through Rate (광고 표시 횟수에 대한 클릭 비율)
    • CPC: Cost Per Click (1회 클릭에 대해서 지불한 광고비)
    • CPA: Cost Per Acquistion (1건의 고객 취득을 위해 지불된 광고비)

DM

  • 자동화를 생각할 경우 갖추는 것을 권장

Outro

  • 책에서 DW, DM, DL 에 대해 그림과 함께 알려주고 있지만 굳이 정리하지 않았습니다.
    • Data_Source - DL - DW - DM - BI_Tool 과 같은 일련의 흐름을 잘 정리해주어 보기 좋았습니다.
    • 각 요소의 필요성에 대해 잘 정리된 것 같아 좋았습니다.
  • 1장을 빠르게 훑어봤는데 빅데이터에 대해 전체적으로 살펴볼 수 있었고 빅데이터로 들어가기전 스몰데이터의 처리에 대해서도 언급해주는 점이 좋았습니다.
profile
공부해서 남주자

0개의 댓글