[5일차]데이터분석-데이터 활용시 고려할 점

isnotnull·2023년 11월 24일

1. 데이터 관련 이슈

데이터 관련한 최근 변화

  • 데이터 소스와 양의 폭발적인 증가
    • Data Warehouse ➡️ Data Lake
  • 모든 조직에서 데이터 생성과 사용 증가
    • Data Decentralization
  • 데이터 사용자 폭발적인 증가
    • Data Democratization
    • SQL / Dashboard skill
  • 클라우드 기본 사용
  • 개인정보 보호법의 강화
    ➡️ Data Governance 필요한 이유

다양한 데이터 관련 이슈들 발생

  • 무분별한 개인 정보 전파
  • 같은 데이터, 다른 해석
  • 너무 많은 대시보드와 비슷한 테이블들
  • 불분명한 데이터 오너십
  • 메타 데이터의 부족
  • 조직이 커지면서 Data Silo 발생

무분별한 개인 정보 전파

  • GDPR준수에 엄청난 비용과 시간이 들어감
  • 한번 테이블에 노출되면 불필요한 악숙환 발생
    • 테이블에 있으니 쓰이고 그 테이블 기반으로 생성된 다른 테이블로 전파
  • 해법 예시
    • 개인 정보 정의(PII)와 개인 정보를 생성 시점부터 태깅
    • 개인 정보 접근 권한 제어와 로깅 ➡️ 감사 가능
    • 특정 개인 정보 추출과 삭제 자동화

같은 데이터, 다른 해석

  • 지표등의 정확한 정의 사전 필요 ➡️ 데이터 사전 혹은 데이터 용어집
    • "매출(REvenue)", "활성 사용자(Active User)"
    • 데이터 소스, 필터링 등의 조건이 명확해야 함 ➡️ 데이터 기반 계산 공식
  • 같은 데이터를 기반으로 사용해야 함
    • 각 지표 계산에서 바탕이 되는 데이터는 무엇인가? Source of Truth
    • Being consistent is more important than being correct

너무 많은 대시보드와 비슷한 테이블들

  • Data Democratization은 정보 과잉으로 이어지기 쉬움
  • Data Discovery 이슈
    • Data 관련 요청의 과반수 이상 차지
  • Data Infra 비용 증가
    • 빅데이터 스케일에서 비슷한 정보의 반복처리 엄청난 비용 증가를 가져옴
  • 해법 예시
    • Data Catalog의 도입
      • 자동화 솔루션을 통해 메타 데이터로부터 관리
      • 데이터셋 오너 지정
      • 주기적인 데이터/대시보드 청소 작업

메타 데이터의 부족

  • Source of Truth는 무엇인가?
  • 특정 데이터셋의 경우
    • 누가 주인인가?
    • 어떻게 생성된 데이터인지 알 수 없음
  • Upstream 데이터를 변경하는 경우 확신이 없음
    • downstream 어디가 고장날지 알 수 없음
  • 해법 예시
    • 중요한 데이터별로 오너 지정
    • 데이터별로 다양한 태그 혹은 분류체계 적용 (ex : PII)
    • 데이터 리니지 자동 파악

불분명한 데이터 오너십

  • 데이터 양의 증가는 보통 데이터 품질 이슈로 이어짐
    • 데이터 품질 이슈는 데이터 셋의 불분명한 오너십과 밀접 관련
    • 누가 특정 데이터셋의 오너인가?
      • 내부 데이터 (ETL)
      • 외부 데이터 (ETL)
      • 내부/외부 데이터를 바탕으로 만들어진 데이터 (ELT)
  • What data do we have?
    • 메타 데이터로부터 관리를 시작

조직이 커지면서 Data Silo 발생

데이터 사일로(Data Silo) : 데이터가 격리되어 특정 조직/부서/단위에서만 정보 접근 및 공유가 가능하여 다른 조직/부서/단위에서는 데이터가 격리되는 현상

  • 앞서 이슈가 증폭됨
  • 비슷한 일을 여러 팀에서 반복
    • 동일 데이터를 여러 조직에서 중복 수집하고 처리
  • 데이터 독점이 권력이 되기도 함
  • 해법 예시
    • 조직 전반에 걸친 메타 데이터 관리/유지
    • Data Mesh(분산된 소유권을 통해 고급 데이터 보안 문제를 해결하는 아키텍처 프레임워크)가 하나의 해법이 될 수 있음
      • Monolithic Data Lake to Distributed Data Mesh
      • 하지만 아직은 초기 단계의 기술

2. 개인정보

개인 식별 정보

  • PII(Personally Identifiable Information)
  • 말 그대로 개인을 식별할 수 있는 정보
  • 개인식별 정보의 예
    • 성명(성/이름), 이메일주소, 전화번호, 주소, 신용카드정보 등등
  • 개인식별 정보의 다른 예
    • 몇가지 조합으로 개인을 식별할 수 있는 경우 (준식별자)
    • 나이, 사는 도시, 직장

3. 개인정보 보호

개인정보 보호

  • 개인의 정보를 적절한 동의없이 저장하고 사용하지 않는 것
  • 개인의 정보를 적절한 동의없이 노출하거나 배포하지 않는 것
  • 보호를 위한 다양한 법률이 전세계적으로 만들어지고 있음
  • 해당 법률 준수가 데이터 카탈로그/거버넌스 도입의 가장 큰 이유
  • 또한 개인의 정보주체권이 중요시되는 추세

개인정보 보호법

  • 국내
    • 개인정보 보호법, 통신사업자 대상의 정보통신망법
    • 클라우드 컴퓨팅법
  • 미국
    • CCPA (California Consumer Privacy Act) / CPRA (California Privacy Rights Act)
    • HIPAA (Health Insurance Portability and Accountability Act)
      • ePHI (Protected Health Information) and EHR
    • Cloud Act, Honest Ads Act, FOSTA, FCC Regulation
  • 유럽연합
    • GDPR

개인정보 관련 법률 요약

  • 개인정보 보호 관련 법령 통합해설서
    • (개인을 알아볼 수 있는 정보) 특정 개인을 알아보기 어려운 정보는 개인정보가 아님
  • 아래 의무 수행시 클라우드에도 개인정보 적재 및 처리 가능
    • 개인정보 수집방법, 내용, 목적, 사전고지 및 동의
    • 개인정보 위탁(AWS,GCP등)에 대한 사전고지
    • 데이터 해외 이전시 추가고지
      • 국내리전 사용시 불필요
  • 저장 및 전송시 암호화 필요한 정보
    • 비밀번호, 바이오 정보, 주민번호, 신용카드번호 등
    • 계좌정보, 여권번호, 외국인 등록번호

내부자 VS 외부 위협

  • 내부 사람들의 단순한 실수에서 비롯된 Data Leak
    • 기관에 따라 14%~37%로 예측
    • ex)구글 문서 공유 세팅 실수
  • 외부 위협의 예
    • 해커, 랜섬웨어
    • 사이버 범죄조직, 국가 후원조직

4. 개인정보 보호법

GDPR

  • 2018년 5월 25일부터 시행된 유럽연합의 개인정보보호 법령
  • 유럽연합내 모든 회원국에 일괄 적용
    • 더 이상 권고가 아님
  • 적용 대상 기업
    • 유럽연합 내의 회사가 아니어도 적용가능
      • EU 사용자가 있는 웹서비스의 경우 모두 적용대상이 됨
    • 많은 글로벌 회사들이 GDPR 준수를 위해 엄청난 노력을 기울임
      • 데이터 카탈로그, 데이터 거버넌스

GDPR 위반시 패널티

  • 동 법령 위반시 과징금 등 행정처분
  • 레벨1 : 일반적 위반사항
    • 대리인 미지정 위반, 유출 통지 위반, 개인정보 처리활동 기록 위반 등
    • 전 세계 매출액 2%(전해 기준) 또는 1천만 유로(약 125억원) 중 높은 금액
  • 레빌2 : 중요한 위반사항
    • 국외이전 규정 위반, 개인정보처리 기본원칙 위반, 정보주체의 권리 보장 의무 위반 등
    • 전 세계 매출액 4%(전해기준) 또는 2천만 유로(약 250억원) 중 높은 금액

GDPR 세부사항

  • 이전보다 동의 요건 강화(서비스 약관)되었고 아동정보에 대해 더 강한 보호
  • 민감정보의 처리는 원칙금지 (회우너국에 따라 달라짐)
  • 정보주체의 권리 강화(회사들은 30일내에 응답해야함)

GDPR vs CCPA

  • 매우 흡사하지만 CCPA의 경우 캘리포니아 거주민으로 국한
  • CCPA는 2020년 1월1일부터 효력 발효
    • 미국향 회사들의 Compliance와 관련된 데이터 거버넌스 활동 증가
  • CCPA의 개인 정보 정희
    • 개인 정보가 개인으로만 국한된 것이 아니라 가구(household)까지 확대됨
  • 2023년 1월 CCPA는 CPRA(California Privacy Rights Act)로 개정됨
    • GDPR과 비슷하게 개인의 정보주체권을 강조

HIPAA

  • Health Insurance Portability and Accountability Act
  • 다음의 개인 의료 정보 보호를 목적으로 하며 1996년부터 효력 발표
  • ePHI (electronic Protected Health Information)
    • Any information that can identify an individual
    • There are 18 of them
    • Personal information
      • Names, addresses, birth date, phone numbers, emails, SSN, license numbers, IP addresses etc
    • Medical information
      • Medical record numbers, account numbers, biometric information (finger-prints)
  • EHR (Electronic health record)
    • Patient’s clinical information (진찰/처방/입원 기록)

HIPAA Penalty

  • 2가지 종류가 존재 - Reasonable Cause and Willful Neglect
    • Reasonable Cause
      • Ranges from $100 to $50,000 per incident and does not involve any jail time
    • Willful Neglect
      • Ranges from #10,000 to $50,000 for each incident and can result in criminal charges
  • 원칙적으로는 CCPA나 GDPR과 흡사
    • Data Encryption
      • Device theft, Email Encryption
    • Employee Training
  • 개인의 사후 50년동안 보호해야할 의무 존재

이 글에서 소개된 내용은 프로그래머스 데이터분석1기에서 진행된 한기용 강사님의 온라인 강의를 참조하여 작성되었습니다.

0개의 댓글