1. 데이터 관련 이슈
데이터 관련한 최근 변화
- 데이터 소스와 양의 폭발적인 증가
- Data Warehouse ➡️ Data Lake
- 모든 조직에서 데이터 생성과 사용 증가
- 데이터 사용자 폭발적인 증가
- Data Democratization
- SQL / Dashboard skill
- 클라우드 기본 사용
- 개인정보 보호법의 강화
➡️ Data Governance 필요한 이유
다양한 데이터 관련 이슈들 발생
- 무분별한 개인 정보 전파
- 같은 데이터, 다른 해석
- 너무 많은 대시보드와 비슷한 테이블들
- 불분명한 데이터 오너십
- 메타 데이터의 부족
- 조직이 커지면서 Data Silo 발생
무분별한 개인 정보 전파
- GDPR준수에 엄청난 비용과 시간이 들어감
- 한번 테이블에 노출되면 불필요한 악숙환 발생
- 테이블에 있으니 쓰이고 그 테이블 기반으로 생성된 다른 테이블로 전파
- 해법 예시
- 개인 정보 정의(PII)와 개인 정보를 생성 시점부터 태깅
- 개인 정보 접근 권한 제어와 로깅 ➡️ 감사 가능
- 특정 개인 정보 추출과 삭제 자동화
같은 데이터, 다른 해석
- 지표등의 정확한 정의 사전 필요 ➡️ 데이터 사전 혹은 데이터 용어집
- "매출(REvenue)", "활성 사용자(Active User)"
- 데이터 소스, 필터링 등의 조건이 명확해야 함 ➡️ 데이터 기반 계산 공식
- 같은 데이터를 기반으로 사용해야 함
- 각 지표 계산에서 바탕이 되는 데이터는 무엇인가? Source of Truth
- Being consistent is more important than being correct
너무 많은 대시보드와 비슷한 테이블들
- Data Democratization은 정보 과잉으로 이어지기 쉬움
- Data Discovery 이슈
- Data Infra 비용 증가
- 빅데이터 스케일에서 비슷한 정보의 반복처리 엄청난 비용 증가를 가져옴
- 해법 예시
- Data Catalog의 도입
- 자동화 솔루션을 통해 메타 데이터로부터 관리
- 데이터셋 오너 지정
- 주기적인 데이터/대시보드 청소 작업
메타 데이터의 부족
- Source of Truth는 무엇인가?
- 특정 데이터셋의 경우
- 누가 주인인가?
- 어떻게 생성된 데이터인지 알 수 없음
- Upstream 데이터를 변경하는 경우 확신이 없음
- downstream 어디가 고장날지 알 수 없음
- 해법 예시
- 중요한 데이터별로 오너 지정
- 데이터별로 다양한 태그 혹은 분류체계 적용 (ex : PII)
- 데이터 리니지 자동 파악
불분명한 데이터 오너십
- 데이터 양의 증가는 보통 데이터 품질 이슈로 이어짐
- 데이터 품질 이슈는 데이터 셋의 불분명한 오너십과 밀접 관련
- 누가 특정 데이터셋의 오너인가?
- 내부 데이터 (ETL)
- 외부 데이터 (ETL)
- 내부/외부 데이터를 바탕으로 만들어진 데이터 (ELT)
- What data do we have?
조직이 커지면서 Data Silo 발생
데이터 사일로(Data Silo) : 데이터가 격리되어 특정 조직/부서/단위에서만 정보 접근 및 공유가 가능하여 다른 조직/부서/단위에서는 데이터가 격리되는 현상
- 앞서 이슈가 증폭됨
- 비슷한 일을 여러 팀에서 반복
- 동일 데이터를 여러 조직에서 중복 수집하고 처리
- 데이터 독점이 권력이 되기도 함
- 해법 예시
- 조직 전반에 걸친 메타 데이터 관리/유지
- Data Mesh(분산된 소유권을 통해 고급 데이터 보안 문제를 해결하는 아키텍처 프레임워크)가 하나의 해법이 될 수 있음
- Monolithic Data Lake to Distributed Data Mesh
- 하지만 아직은 초기 단계의 기술
2. 개인정보
개인 식별 정보
- PII(Personally Identifiable Information)
- 말 그대로 개인을 식별할 수 있는 정보
- 개인식별 정보의 예
- 성명(성/이름), 이메일주소, 전화번호, 주소, 신용카드정보 등등
- 개인식별 정보의 다른 예
- 몇가지 조합으로 개인을 식별할 수 있는 경우 (준식별자)
- 나이, 사는 도시, 직장
3. 개인정보 보호
개인정보 보호
- 개인의 정보를 적절한 동의없이 저장하고 사용하지 않는 것
- 개인의 정보를 적절한 동의없이 노출하거나 배포하지 않는 것
- 보호를 위한 다양한 법률이 전세계적으로 만들어지고 있음
- 해당 법률 준수가 데이터 카탈로그/거버넌스 도입의 가장 큰 이유
- 또한 개인의 정보주체권이 중요시되는 추세
개인정보 보호법
- 국내
- 개인정보 보호법, 통신사업자 대상의 정보통신망법
- 클라우드 컴퓨팅법
- 미국
- CCPA (California Consumer Privacy Act) / CPRA (California Privacy Rights Act)
- HIPAA (Health Insurance Portability and Accountability Act)
- ePHI (Protected Health Information) and EHR
- Cloud Act, Honest Ads Act, FOSTA, FCC Regulation
- 유럽연합
개인정보 관련 법률 요약
- 개인정보 보호 관련 법령 통합해설서
- (개인을 알아볼 수 있는 정보) 특정 개인을 알아보기 어려운 정보는 개인정보가 아님
- 아래 의무 수행시 클라우드에도 개인정보 적재 및 처리 가능
- 개인정보 수집방법, 내용, 목적, 사전고지 및 동의
- 개인정보 위탁(AWS,GCP등)에 대한 사전고지
- 데이터 해외 이전시 추가고지
- 저장 및 전송시 암호화 필요한 정보
- 비밀번호, 바이오 정보, 주민번호, 신용카드번호 등
- 계좌정보, 여권번호, 외국인 등록번호
내부자 VS 외부 위협
- 내부 사람들의 단순한 실수에서 비롯된 Data Leak
- 기관에 따라 14%~37%로 예측
- ex)구글 문서 공유 세팅 실수
- 외부 위협의 예
- 해커, 랜섬웨어
- 사이버 범죄조직, 국가 후원조직
4. 개인정보 보호법
GDPR
- 2018년 5월 25일부터 시행된 유럽연합의 개인정보보호 법령
- 유럽연합내 모든 회원국에 일괄 적용
- 적용 대상 기업
- 유럽연합 내의 회사가 아니어도 적용가능
- EU 사용자가 있는 웹서비스의 경우 모두 적용대상이 됨
- 많은 글로벌 회사들이 GDPR 준수를 위해 엄청난 노력을 기울임
GDPR 위반시 패널티
- 동 법령 위반시 과징금 등 행정처분
- 레벨1 : 일반적 위반사항
- 대리인 미지정 위반, 유출 통지 위반, 개인정보 처리활동 기록 위반 등
- 전 세계 매출액 2%(전해 기준) 또는 1천만 유로(약 125억원) 중 높은 금액
- 레빌2 : 중요한 위반사항
- 국외이전 규정 위반, 개인정보처리 기본원칙 위반, 정보주체의 권리 보장 의무 위반 등
- 전 세계 매출액 4%(전해기준) 또는 2천만 유로(약 250억원) 중 높은 금액
GDPR 세부사항
- 이전보다 동의 요건 강화(서비스 약관)되었고 아동정보에 대해 더 강한 보호
- 민감정보의 처리는 원칙금지 (회우너국에 따라 달라짐)
- 정보주체의 권리 강화(회사들은 30일내에 응답해야함)
GDPR vs CCPA
- 매우 흡사하지만 CCPA의 경우 캘리포니아 거주민으로 국한
- CCPA는 2020년 1월1일부터 효력 발효
- 미국향 회사들의 Compliance와 관련된 데이터 거버넌스 활동 증가
- CCPA의 개인 정보 정희
- 개인 정보가 개인으로만 국한된 것이 아니라 가구(household)까지 확대됨
- 2023년 1월 CCPA는 CPRA(California Privacy Rights Act)로 개정됨
HIPAA
- Health Insurance Portability and Accountability Act
- 다음의 개인 의료 정보 보호를 목적으로 하며 1996년부터 효력 발표
- ePHI (electronic Protected Health Information)
- Any information that can identify an individual
- There are 18 of them
- Personal information
- Names, addresses, birth date, phone numbers, emails, SSN, license numbers, IP addresses etc
- Medical information
- Medical record numbers, account numbers, biometric information (finger-prints)
- EHR (Electronic health record)
- Patient’s clinical information (진찰/처방/입원 기록)
HIPAA Penalty
- 2가지 종류가 존재 - Reasonable Cause and Willful Neglect
- Reasonable Cause
- Ranges from $100 to $50,000 per incident and does not involve any jail time
- Willful Neglect
- Ranges from #10,000 to $50,000 for each incident and can result in criminal charges
- 원칙적으로는 CCPA나 GDPR과 흡사
- Data Encryption
- Device theft, Email Encryption
- Employee Training
- 개인의 사후 50년동안 보호해야할 의무 존재
이 글에서 소개된 내용은 프로그래머스 데이터분석1기에서 진행된 한기용 강사님의 온라인 강의를 참조하여 작성되었습니다.