[서평] 견고한 데이터 엔지니어링

황준하·2023년 8월 27일
0

느낀점

이 책은 데이터 엔지니어링의 실무와 비즈니스 측면에서 자세히 설명한다. 여러 개념에 대해 명확하게 정의를 하고 시작하는 점이 좋았으며 각 장마다 레퍼런스도 깔끔하게 정리되어 있다. 번역도 괜찮은 편에 속한다고 생각되며 실무에서 고려해야할 사항들에 대해 집중하고 있는 책이기 때문에 실무자가 이 책을 읽는다면 도움이 많이 될 것으로 보인다. 기술(코드, 프로그램 등)에 집중한 책이라기 보다는 여러 개념들과 실무측면에서의 고려사항들에 대해 이야기하는 책이므로 이 점을 참고해서 책을 읽는 것이 좋아보인다. (Survey라고 생각하면 되겠다.)

챕터별 다루는 내용

① 데이터 엔지니어링 상세

1장에서는 데이터 엔지니어링이 무엇인지 정의하고 이 책에서 어떤 부분에 대해 집중할 지(데이터 엔지니어링 수명주기), 데이터 엔지니어의 역할에 대해 간단히 소개한다.

이런 내용들을 다룰거예요 라고 간단히 짚어주는 부분

② 데이터 엔지니어링 수명

이 책의 중심 주제가 될 데이터 엔지니어링 수명을 소개한다. 각각 단계별로 고려되어야 할 사항, 앞으로 책에서 논의하게 될 내용들을 간단히 언급한다.

③ 우수한 데이터 아키텍처 설계

데이터 아키텍처가 무엇이고 고려해야할 사항을 알려준다. 또, 우수한 아키텍처의 원칙에 대해 소개한다.

④ 데이터 엔지니어링 수명 주기 전체에 걸친 기술 선택

데이터 기술을 선택할 때, 고려해야할 사항들에 대해 소개한다. 상당히 많은 요소들에 대해 설명해주고 있으며 이러한 기술의 선택이 비지니스 가치를 높여줄 수 있는지에 대해 집중한다.

⑤ 원천 시스템에서의 데이터 생성

5~9장은 앞서 소개한 데이터 엔지니어링 수명 주기의 각 단계에 대해 자세히 설명해준다.

이 장에서는 여러 원천 시스템의 유형과 세부적인 사항들(DB, API 등)에 대해 설명하고 여러 고려사항들에 대해 이야기한다.

⑥ 데이터 저장

데이터가 저장되는 스토리지 시스템과 스토리지 추상화에 대해 설명한다. 기본 요소들(HDD, SSD 등)을 시작으로 스토리지 시스템(분산 스토리지 ,네트워크 스토리지 등)에 대해 이야기하고 스토리지 추상화(데이터 웨어하우스, 레이크 하우스)와 동향에 대해 설명한다.

⑦ 데이터 수집

데이터 수집과 파이프라인에 대해 설명하고 수집 시스템 구축 시 고려할 점에 대해 소개한다. (데이터 종류, 빈도, 스키마 구성 등) 또, 여러 데이터 수집 방법들에 대해 이야기한다.

⑧ 쿼리 모델링 및 데이터 변환

쿼리와 모델링 및 변환에 대해 설명한다. 쿼리가 무엇이며 어떻게 사용되는지 이야기하고 이를 기반으로 데이터 모델링에 대해 설명한다. 이후, 데이터를 변환하는 여러 방법들에 대해 이야기한다.

⑨ 분석, 머신러닝 및 역 ETL을 위한 데이터 서빙

데이터 서빙시의 여러 고려 사항에 대해 이야기하고 여러 데이터 서빙 방법에 대해 설명한다.

⑩ 보안과 개인정보보호

데이터 엔지니어링에서의 보안과 개인정보보호에 대해 이야기한다. 이를 위한 마음가짐, 메뉴얼, 기술에 대해 소개하고 데이터 보안에 대해 강조한다.

⑪ 데이터 엔지니어링의 미래

책에 대한 마무리 부분으로 여러 데이터 엔지니어링 미래에 대한 이야기를 한다. (툴, 상호 운용성, 데이터 스택 등)

책정보

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

0개의 댓글