데이터 품질의 비밀 서평

Hyuntae Jung·2023년 5월 15일
0

Review

목록 보기
5/5
post-thumbnail

도서출판 디코딩으로 부터 책을 제공받아 솔직하게 작성한 서평입니다.

이 책은 새로운 개념을 접하게 해주는 책의 기능을 제대로 수행하는 책이다.

DevOps란 용어는 많이 들어봤는데 DataOps란 용어는 처음 접했다.

DevOps의 영향범위는 IT부서와 개탈팀인 반면에 DataOps는 조직전체가 데이터에 의존하므로 전영역에 걸쳐서 영향력을 행사한다고 볼 수 있다.

(여자친구가 잘 이용하는 사이트도 보인다~~~)

일을 하면서 고객사들의 데이터를 SQL로 다루는 경우가 많다.

현업 담당자는 데이터 품질에 대한 신뢰가 깨지면, 데이터에 대해서 태클을 걸곤 하는데

그 입장이 나도 이해가 가긴한다.

분석이나 단위테스트를 함에 있어 구현이 잘 됐는지 테스트할 때, 분명 제대로 설계 및 구현을 했음에도

원하는대로 결과가 산출되지 않은 경험이 있다.

확인결과 코드의 문제가 아닌 Raw Data의 문제였다.(이 책에서는 이를 'Bad data'라고 표현하며 '데이터 다운타임'을 감소시킬 수 있도록 가이드해 준다.)

Machine Learning과 Deep Learing은 데이터를 기반으로 학습을 통해 역할을 수행한다.

기초 데이터의 품질이 관리가 안된 데이터 기반으로 생성된 모델은 가치가 없다고 할 수 있다.

ML과 DL을 수행할 때 EDA의 중요성이 큰 것은 모두 알고 있을 것이다.

또한 EDA는 RawData를 전처리 하는 것으로, 그 전제조건은 DataOps의 역할이 제대로 수행됐다는 것이다.

이처럼 우리가 전제조건으로 '당연히' Good Data를 구축하기 위해서 전사적 관점에서 모두가 데이터 품질을 높일 수 있도록 단계별로 가이드를 주는 책이여서 맘에 든다.

데이터 분야는 알면 알수록 새로운 개념들이 많이 보인다.

구조화된 데이터 저장소인 '데이터 웨어하우스'와 보다 자유도가 높은 '데이터 레이크' 모두 고품질 데이터가 필요하다.

점점 더 많은 데이터 조직이 증가하는 비즈니스 요구 사항을 소화하기 위하여

'데이터 레이크하우스'('데이터 웨어하우스' + '데이터 레이크' )의 중요성이 부각되고 있다고 한다.

('데이터 레이크하우스'에서 원하는 데이터를 슉슉 가져오는 정규표현식 마스터는 언제 될 수 있을까...?!)

데이터 다운타임 해결을 위하여 우리는 이 책에서 제시한 솔루션을 바탕으로 '사후대응'이 아닌 '사전 예방적 대응'을 수행할 수 있도록 해야하며, 데이터 조직의 개편 및 RPA를 구축해야할 것이다.

이 책은 데이터 관리자, 데이터 아키텍트, 데이터 분석가, 데이터 과학자 등 데이터에 관심 있는 사람들에게 유용한 정보를 제공하며, 데이터 품질을 개선하고자 하는 사람들에게도 도움이 될 것 같다.

데이터 품질의 중요성과 이를 개선하는 방법에 대해 상세하게 설명하며, 많은 사례와 실제 도구를 제공하여 데이터 품질 개선에 관심 있는 모든 분들에게 추천할 만한 책이라고 생각한다.

0개의 댓글