데이터의 중요성이 대두되는 가운데 변화내용과 주의해야 될 점을 알아보자.
데이터 관련한 최근 변화
- 데이터 소스와 양의 폭발적인 증가
- Data Warehouse < Data Lake
- 데이터 레이크(호수)라는 개념이 새로 생김
- 과거 데이터 웨어하우스만 사용하던 시절에서 데이터 레이크에 여러 데이터를 보관하고 데이터 웨어하우스에 정제된 데이터를 적재하는 시스템으로 변화
- 모든 조직에서 데이터 생성과 사용 증가
- 데이터 활용 직종이 적었지만, 현재는 거의 모든 조직이 데이터를 활용할 수 있게 됨.
- 데이터 사용자의 폭팔적인 증가
- Data Democratization(데이터 민주화)가 중요해짐
- SQL/Dashboard skill이 중요해짐.
- 클라우드 기본 사용
- 개인정보 보호법의 강화
- 데이터 거버넌스가 더욱 중요해짐!
발전과 동시에 다양한 데이터 관련 이슈들 또한 발생하게 되었다.
이슈종류.
-
무분별한 개인 정보 전파
-
같은 데이터, 다른 해석
-
너무 많은 대시보드와 비슷한 테이블들
-
불분명한 데이터 오너십
4-1. 데이터 수집의 목적에 맞게 오너가 정해져야 되는데 불분명하게 진행되는 바람에 오너를 찾기 어려움
4-2. 데이터엔지니어의 역할을 예로 ) 자의적으로 필요성을 느껴서 ETL을 구현하는 것이 아닌, 타 부서에서 요청이 들어오면 ETL을 구현. 요청자가 오너가 됨.
- 메타 데이터의 부족
1. 무분별한 개인 정보 전파
- GDPR 준수에 엄청난 비용과 시간이 들어감
- GDPR : 유럽연합에서 만든 개인정보보호법 / (뒤에 한번 더 정리할 예정)
- 한번 ELT에 개인정보가 노출 되면 불필요한 악순환 발생
- ELT를 기반으로 새로운 테이블이 생성됨. 개인정보는 계속해서 전파됨.
- 나중에 문제를 파악하고 RAW테이블에서 개인정보를 지우려고 하면 이후 생겨난 테이블이 작동하지 않을 가능성이 있음.
- 해법 예
- 개인 정보 정의(PII)와 개인 정보를 생성 시점부터 태깅
- 개인 정보 접근 권한 제어와 로깅 → 감사 가능
- 개인정보를 어쩔 수 없이 넣어야 될 때 아무나 만질 수 없게 접근 권한 제어 및 로깅.
- 특정 개인 정보 추출과 삭제 자동화
Cisco CEO인 존 참버스는 이렇게 말했다고 한다.
“세상에는 두 가지 회사가 있다. 해킹을 당한 회사와 해킹 당한지 모르는 회사”
모든 회사는 해킹이 되고 있으니 개인 정보를 잘 보호하자!
2. 같은 데이터, 다른 해석
- 지표의 정의가 명확하게 공유가 안된 경우 사람들마다 데이터를 자의적으로 해석하게 됨.
- 지표등의 정확한 정의 사전 필요 → 데이터 사전 혹은 데이터 용어집
- 데이터 소스, 필터링 등의 조건이 명확해야 됨.→데이터 기반 계산 공식 테이블을 지정 해줌 : “매출을 볼 땐 이 대시보드를 보세요~”지정 된 테이블에 매출 데이터를 정형화함.
- 같은 데이터를 기반으로 사용해야 됨.
- 각 지표 계산에서 바탕이 되는 데이터는 무엇인지 파악할 수 있어야 됨. 이때 RAW 데이터는 공통되어야 됨.
3. 너무 많은 대시보드와 비슷한 테이블들
- Data Democratization(데이터 민주화)은 정보 과잉으로 이어지기 쉬움
- Data Discovery 이슈
- "이 데이터가 뭔지 찾아달라"
- Data 관련 요청의 과반수 이상 차지
- Data Infra 비용 증가
- 빅데이터 스케일에서 비슷한 정보의 반복처리시 엄청난 비용 발생
- 해법 예
- Data Catalog의 도입
- 데이터셋 오너 지정
- 주기적인 데이터/대시보드 청소작업
4. 메타 데이터의 부족
- 메타 데이터 : 데이터를 설명해 줄 수 있는 데이터
- 특정 데이터셋의 경우
- 누가 주인인지. 어떻게 생성된 데이터인지 알 수 없음.
- Upstream 데이터를 변경하는 경우 확신이 없음
- downstream 데이터 어디가 고장날지 알 수 없다.
- 해법 예
- 중요 데이터별로 오너 지정
- 데이터별로 다양한 태크 혹은 불류체계 적용
- 데이터 리니지 자동 파악
5. 조직이 커지면서 Data Silo(데이터 담)발생
- 데이터 조직이 분산되거나 하이브리드로 운영 되는 경우 데이터 공유가 안되어 문제가 발생
- 데이터 독점이 권력이 되기도 함.
- 해법 예
- 팀에 상관없이 조직 전반에 걸친 메타 데이터 관리/유지
- Data Mesh가 하나의 해법이 될 수 있음.
- Data Mesh : 팀별로 데이터시스템을 유지하는 것을 허용. 거기서 사용되는 데이터가 모든 팀에 투명하게 보여야 됨.