[독서] 빅데이터를 지탱하는 기술 #4

이동욱·2022년 3월 19일

목록 보기

4/4

Intro

데이터

파이프라인 설계

Hadoop 의 기본구성

HDFS: 분산 파일시스템
- 다수의 컴퓨터에 파일을 복사하여 중복성을 높인다는 특징
YARN: 리소스 관리자
- 애플리케이션 마다 우선순위를 결정 가능해서 리소스 낭비 없이 데이터 처리를 진행
MapReduce: 분산 데이터 처리의 기반
- 대량의 데이터를 배치처리
- 쿼리를 자동으로 MapReduce프로그램으로 변환하는 Hive

Spark

여기까지가 3-1 의 내용입니다.
이 후에 Hive와 Presto를 활용한 데이터 마트 구축의 파이프라인을 설명하지만 해당 내용은 아직 이해하지 못하여 나중에 제 방식대로 만들어 본 뒤에 포스팅을 해볼까 생각중입니다.
책을 읽으며 좋았던 점은 DW, DM을 구성할 때 어떤 기술이 왜 사용되는지 구축되기까지의 흐름이 어떻게 되는지 설명해주어 좋았습니다.
여기까지는 내용이 쉬워 금방 읽었지만 조금씩 모르는 내용이 등장하면서 더 찾아보고 실습해보아야 할 것 같습니다.
100페이지 쯤 도착하였는데 약 300페이지 정도 되는 책의 1/3 지점입니다.
제가 정리한 포스팅으로 책의 내용을 파악 가능하신분이라면 굳이 사서 보시지 않아도 될것같고 왜이리 내용이 부실해 라는 생각이 드시는 분이라면 책을 사서 한번 읽어보셔도 좋을 것 같습니다.

공부해서 남주자