Intro
- 책을 읽으며 책 내용을 정리하려합니다.
- 하루에 한 챕터정도 읽으며 책의 내용을 상세하게는 정리하지 않고 키워드나 느낌점을 위주로 정리하려합니다.
Contents
데이터
- 구조화 데이터: 테이블 형식
- 비구조화 데이터: 텍스트, 이미지
- 스키마리스 데이터: 로그파일, csv, json, xml ...
파이프라인 설계
- SQL로 집계할 수 없는 데이터를 구조화 데이터로 변환하는것이 필요
- Fact 테이블: 시간에 따라 증가하는 데이터
- Dimension 테이블: 그에 따른 부속 데이터
Hadoop 의 기본구성
- HDFS: 분산 파일시스템
- 다수의 컴퓨터에 파일을 복사하여 중복성을 높인다는 특징
- YARN: 리소스 관리자
- 애플리케이션 마다 우선순위를 결정 가능해서 리소스 낭비 없이 데이터 처리를 진행
- MapReduce: 분산 데이터 처리의 기반
- 대량의 데이터를 배치처리
- 쿼리를 자동으로 MapReduce프로그램으로 변환하는 Hive
Spark
Outro
- 여기까지가 3-1 의 내용입니다.
- 이 후에 Hive와 Presto를 활용한 데이터 마트 구축의 파이프라인을 설명하지만 해당 내용은 아직 이해하지 못하여 나중에 제 방식대로 만들어 본 뒤에 포스팅을 해볼까 생각중입니다.
- 책을 읽으며 좋았던 점은 DW, DM을 구성할 때 어떤 기술이 왜 사용되는지 구축되기까지의 흐름이 어떻게 되는지 설명해주어 좋았습니다.
- 여기까지는 내용이 쉬워 금방 읽었지만 조금씩 모르는 내용이 등장하면서 더 찾아보고 실습해보아야 할 것 같습니다.
- 100페이지 쯤 도착하였는데 약 300페이지 정도 되는 책의 1/3 지점입니다.
- 제가 정리한 포스팅으로 책의 내용을 파악 가능하신분이라면 굳이 사서 보시지 않아도 될것같고 왜이리 내용이 부실해 라는 생각이 드시는 분이라면 책을 사서 한번 읽어보셔도 좋을 것 같습니다.