[5일차]데이터 관련 주의해야 할 점

김준석·2023년 12월 26일
0

데이터의 중요성이 대두되는 가운데 변화내용과 주의해야 될 점을 알아보자.


데이터 관련한 최근 변화

  • 데이터 소스와 양의 폭발적인 증가
    • Data Warehouse < Data Lake
      • 데이터 레이크(호수)라는 개념이 새로 생김
      • 과거 데이터 웨어하우스만 사용하던 시절에서 데이터 레이크에 여러 데이터를 보관하고 데이터 웨어하우스에 정제된 데이터를 적재하는 시스템으로 변화
  • 모든 조직에서 데이터 생성과 사용 증가
    • 데이터 활용 직종이 적었지만, 현재는 거의 모든 조직이 데이터를 활용할 수 있게 됨.
    • 데이터 사용자의 폭팔적인 증가
      • Data Democratization(데이터 민주화)가 중요해짐
      • SQL/Dashboard skill이 중요해짐.
  • 클라우드 기본 사용
  • 개인정보 보호법의 강화
  • 데이터 거버넌스가 더욱 중요해짐!
    • 데이터수집~저장,관리까지의 프로세스

발전과 동시에 다양한 데이터 관련 이슈들 또한 발생하게 되었다.

이슈종류.

  1. 무분별한 개인 정보 전파

  2. 같은 데이터, 다른 해석

  3. 너무 많은 대시보드와 비슷한 테이블들

  4. 불분명한 데이터 오너십

4-1. 데이터 수집의 목적에 맞게 오너가 정해져야 되는데 불분명하게 진행되는 바람에 오너를 찾기 어려움

4-2. 데이터엔지니어의 역할을 예로 ) 자의적으로 필요성을 느껴서 ETL을 구현하는 것이 아닌, 타 부서에서 요청이 들어오면 ETL을 구현. 요청자가 오너가 됨.

  1. 메타 데이터의 부족

1. 무분별한 개인 정보 전파

  • GDPR 준수에 엄청난 비용과 시간이 들어감
    • GDPR : 유럽연합에서 만든 개인정보보호법 / (뒤에 한번 더 정리할 예정)
  • 한번 ELT에 개인정보가 노출 되면 불필요한 악순환 발생
    • ELT를 기반으로 새로운 테이블이 생성됨. 개인정보는 계속해서 전파됨.
    • 나중에 문제를 파악하고 RAW테이블에서 개인정보를 지우려고 하면 이후 생겨난 테이블이 작동하지 않을 가능성이 있음.
  • 해법 예
    • 개인 정보 정의(PII)와 개인 정보를 생성 시점부터 태깅
    • 개인 정보 접근 권한 제어와 로깅 → 감사 가능
      • 개인정보를 어쩔 수 없이 넣어야 될 때 아무나 만질 수 없게 접근 권한 제어 및 로깅.
    • 특정 개인 정보 추출과 삭제 자동화

Cisco CEO인 존 참버스는 이렇게 말했다고 한다.

“세상에는 두 가지 회사가 있다. 해킹을 당한 회사와 해킹 당한지 모르는 회사”

모든 회사는 해킹이 되고 있으니 개인 정보를 잘 보호하자!


2. 같은 데이터, 다른 해석

  • 지표의 정의가 명확하게 공유가 안된 경우 사람들마다 데이터를 자의적으로 해석하게 됨.
  • 지표등의 정확한 정의 사전 필요 → 데이터 사전 혹은 데이터 용어집
    • 데이터 소스, 필터링 등의 조건이 명확해야 됨.→데이터 기반 계산 공식 테이블을 지정 해줌 : “매출을 볼 땐 이 대시보드를 보세요~”지정 된 테이블에 매출 데이터를 정형화함.
  • 같은 데이터를 기반으로 사용해야 됨.
    • 각 지표 계산에서 바탕이 되는 데이터는 무엇인지 파악할 수 있어야 됨. 이때 RAW 데이터는 공통되어야 됨.

3. 너무 많은 대시보드와 비슷한 테이블들

  • Data Democratization(데이터 민주화)은 정보 과잉으로 이어지기 쉬움
  • Data Discovery 이슈
    • "이 데이터가 뭔지 찾아달라"
    • Data 관련 요청의 과반수 이상 차지
  • Data Infra 비용 증가
    • 빅데이터 스케일에서 비슷한 정보의 반복처리시 엄청난 비용 발생
  • 해법 예
    • Data Catalog의 도입
      • 자동화 솔루션을 통해 메타 데이터부터 관리
    • 데이터셋 오너 지정
    • 주기적인 데이터/대시보드 청소작업

4. 메타 데이터의 부족

  • 메타 데이터 : 데이터를 설명해 줄 수 있는 데이터
  • 특정 데이터셋의 경우
    • 누가 주인인지. 어떻게 생성된 데이터인지 알 수 없음.
      • Upstream 데이터를 변경하는 경우 확신이 없음
      • downstream 데이터 어디가 고장날지 알 수 없다.
  • 해법 예
    • 중요 데이터별로 오너 지정
    • 데이터별로 다양한 태크 혹은 불류체계 적용
    • 데이터 리니지 자동 파악

5. 조직이 커지면서 Data Silo(데이터 담)발생

  • 데이터 조직이 분산되거나 하이브리드로 운영 되는 경우 데이터 공유가 안되어 문제가 발생
  • 데이터 독점이 권력이 되기도 함.
  • 해법 예
    • 팀에 상관없이 조직 전반에 걸친 메타 데이터 관리/유지
    • Data Mesh가 하나의 해법이 될 수 있음.
      • Data Mesh : 팀별로 데이터시스템을 유지하는 것을 허용. 거기서 사용되는 데이터가 모든 팀에 투명하게 보여야 됨.

0개의 댓글