[독서] 빅데이터를 지탱하는 기술 #4

이동욱·2022년 3월 19일
0

독서

목록 보기
4/4

Intro

  • 책을 읽으며 책 내용을 정리하려합니다.
  • 하루에 한 챕터정도 읽으며 책의 내용을 상세하게는 정리하지 않고 키워드나 느낌점을 위주로 정리하려합니다.

Contents

데이터

  • 구조화 데이터: 테이블 형식
  • 비구조화 데이터: 텍스트, 이미지
  • 스키마리스 데이터: 로그파일, csv, json, xml ...

파이프라인 설계

  • SQL로 집계할 수 없는 데이터를 구조화 데이터로 변환하는것이 필요
  • Fact 테이블: 시간에 따라 증가하는 데이터
  • Dimension 테이블: 그에 따른 부속 데이터

Hadoop 의 기본구성

  • HDFS: 분산 파일시스템
    • 다수의 컴퓨터에 파일을 복사하여 중복성을 높인다는 특징
  • YARN: 리소스 관리자
    • 애플리케이션 마다 우선순위를 결정 가능해서 리소스 낭비 없이 데이터 처리를 진행
  • MapReduce: 분산 데이터 처리의 기반
    • 대량의 데이터를 배치처리
    • 쿼리를 자동으로 MapReduce프로그램으로 변환하는 Hive

Spark

  • 대량의 메모리를 활용하여 고속화를 실현

Outro

  • 여기까지가 3-1 의 내용입니다.
  • 이 후에 Hive와 Presto를 활용한 데이터 마트 구축의 파이프라인을 설명하지만 해당 내용은 아직 이해하지 못하여 나중에 제 방식대로 만들어 본 뒤에 포스팅을 해볼까 생각중입니다.
  • 책을 읽으며 좋았던 점은 DW, DM을 구성할 때 어떤 기술이 왜 사용되는지 구축되기까지의 흐름이 어떻게 되는지 설명해주어 좋았습니다.
  • 여기까지는 내용이 쉬워 금방 읽었지만 조금씩 모르는 내용이 등장하면서 더 찾아보고 실습해보아야 할 것 같습니다.
  • 100페이지 쯤 도착하였는데 약 300페이지 정도 되는 책의 1/3 지점입니다.
  • 제가 정리한 포스팅으로 책의 내용을 파악 가능하신분이라면 굳이 사서 보시지 않아도 될것같고 왜이리 내용이 부실해 라는 생각이 드시는 분이라면 책을 사서 한번 읽어보셔도 좋을 것 같습니다.
profile
공부해서 남주자

0개의 댓글