[1기] K-Digital Training: 데이터 분석 데브코스 - TIL_Day5

정연우·2023년 11월 24일
0

학습 주제

데이터 활용할 때 무엇을 고려하고 주의해야하는지를 배웠습니다. 개인정보에는 무엇이 있고 이를 보호하는 법은 무엇이 있는지 배웠고 이를 통해 데이터를 다루면서 가져야하는 마음가짐에 대해 배웠습니다.


주요 메모 사항 소개

데이터 관련 주의해야할 이슈들

잘못된 데이터로 결정을 내리면 좋은 결정을 할 수 없고, 개인정보 보호가 잘못되면 평판의 악화와 벌금으로 인한 재정적 문제가 발생할 수 있다.


데이터 관련한 최근 변화

이벤트 로그와 같이 크기가 크지만 어떻게 활용해야할지 불분명한 데이터들은 데이터 레이크에 저장한다. 그리고 데이터 웨어하우스에 의미있고 크기는 작게 만들어 적재한다.

데이터팀이 데이터에 접근하는 것이 아니라 팀에 따라 데이터를 사용한다.

Data Democratization(데이터 민주화): 데이터가 필요한 사랍들은 누구나 접근할 수 있다.

거의 모든 회사들이 클라우드를 사용한다.

새로운 형태의 데이터 관리: 데이터 거버넌스 - 데이터의 활용이 늘어나면서 데이터를 잘못활용했을 경우 오히려 해가 만들어질 수 있기 때문에 데이터 수집, 분석, 저장까지 전반적인 프로세스가 필요하다.


다양한 데이터 관련 이슈들이 발생함

같은 데이터라도 지표의 정의가 명확하게 공유가 되지 않을 경우 해석이 다를 수 있다.

대시보드가 많아지면 원하는 대시보드를 찾기 어렵다.

모든 데이터 파이프라인은 테크니컬 오너와 비즈니스 오너(데이터를 요처한 사람)가 있어야한다. 개인이 오너를 맡을 경우 그 사람의 업무가 바뀌거나 퇴사를 할 수도 있기 때문에 오너는 팀이 맡아야한다.

데이터조직이 분산 구조나 하이브리드 구조가 잘못 운영되는 경우 데이터를 각자 만들고 공유를 하지 않는 경우가 발생한다. (Data Silo: 특정 조직에만 데이터에 접근하도록 하는 것)


무분별한 개인 정보 전파

테이블에 개인정보를 실수로 저장해서 빼려고하는 경우 다른 프로세스가 동작을 하지 않아 문제가 발생할 수 있다. 따라서 관리를 잘하려면 개인 정보가 무엇인지부터 명확하게 정해놓고 어떤 데이터가 처음으로 시스템(ETL) 안으로 들어올 때 개인 정보라면 태깅을 하고 필요하지 않다면 읽어오지 않는다. 또한 읽어와도 접근권한을 제한해 데이터가 필요한 사람들만 부여한다. 그리고 해커가 접근할 수도 있기 때문에 누가 언제 접근했는지 기록해 놓는다.


같은 데이터, 다른 해석

데이터 사전 혹은 데이터 용어집을 통해 사람들이 같은 지표를 놓고 자의적으로 해석하지 않게 도와주거나 대시보드를 찾는 시간을 줄일 수 있다.

지표를 계산할 때 어느 테이블과 데이터를 쓰는 것이 좋은지 기록하는 것이 좋다.


너무 많은 대시보드와 비슷한 테이블들

Data Catalog를 검색해서 회사 내의 테이블들이 어디서 생기고 어떻게 소비되는지 알게해야한다. (Data Discovery) 이를 통해 데이터나 대시보드를 쉽게 찾을 수 있다.


메타 데이터의 부족

메타 데이터: 데이터들에 대한 데이터

데이터 리니지(데이터 계보): 테이블을 만들기 위해 앞에서 어떤 테이블이 쓰였는지 확인할 수 있다.

기록을 잘해야 데이터 관리가 쉬워진다. 하지만 모든 데이터의 메타 데이터를 관리하는 것은 힘들다. 따라서 중요한 데이터들만 관리해야 한다.


불분명한 데이터 오너십

데이터를 요청한 사람이 누구인지 알아야 문제가 발생했을 때 보고하고 필요없는 데이터를 삭제할 수 있다.


조직이 커지면서 Data Silo 발생

Data Mesh: 팀별로 데이터 시스템을 유지하되, 팀별로 발생한 데이터들이 일목요연하게 모든 팀들에게 보여야한다.

Monolithic Data Lake to Distributed Data Mesh: 하나의 큰 데이터 레이크에 모든 데이터를 저장하고 데이터팀이 중앙에서 관리를 하는 구조에서 분산해 각 팀별로 관라하는 구조로 변화한다.(큰 회사 기준)


개인정보와 보호

개인식별 정보의 정의 - 대한민국

기본적으로 사람이 사망하는 순간 개인정보 보호가 되지 않는다.


개인식별 정보의 정의 - 미국 (CCPA)

개인정보란 개인뿐만 아니라 집, 가족이나 인터넷 검색기록, 브라우징 기록도 포함된다.


개인식별 정보의 정의 - 유럽연합

한국, 미국 캘리포니아 개인정보 보호법과 크게 다르지 않다.


개인정보 보호

약관에 없는 형태로 개인정보를 활용하는 경우도 개인정보 보호를 하지 않은 것이다.

데이터 카탈로그/거버넌스를 도입하는 가장 큰 이유는 데이터 보호법을 준수하기 위함이다. 보호법을 지키지 않으면 회사의 평판이 떨어지거나 벌금으로 재정적 문제가 발생할 수 있다. 따라서 필요한 경우에만 사용해야 한다.

현재 데이터의 소유권에 관한 문제가 많이 나온다. (Gen AI)

개인의 정보주체권: 개인이 자신의 개인정보에 대한 권리를 가진다. (개인이 자신의 정보 사용을 금지할 수 있다.)

Data as a Property Right: 개인의 정보를 활용해 기업들이 수익을 얻을 경우 개인과 수익을 공유해야한다.


개인정보 관련 법률 요약

클라우드를 사용할 경우 어떤 클라우드를 사용하고 있는지 명시를하고 그 클라우드에 적재하고 활용될 것이라는 것을 사전에 고지해야하고 이는 약관의 일부로 들어가야한다.


내부자 vs 외부 위협

내부 사람들이 실수로 노출하는 경우가 해킹보다 더 흔하다.

데이터 일을 할 때 개인정보가 정말로 필요한가를 생각해봐야한다.


개인정보 보호법

GDPR

유데미 또한 미국회사지만 유럽연합에서 사용하고 있는 서비스이므로 GDPR을 준수해야 한다.


GDPR 위반시 패널티

한국의 클라우드 법에서 한국 밖에 개인정보가 저장될 경우 고지가 되어야한다. 고지를 하지 않으면 위법이다. 유럽연합도 마찬가지이다.


구글과 유럽연합의 역사

유럽연합이 검색엔진 업체에게 개인의 검색기록을 9개월 이상 보관하지 말라는 요청이 있었다.


GDPR vs CCPA

기본적으로 이 두개는 비슷한 법률이다.

GDPR이 기폭제가 되어 세계적으로 많은 나라들이 GDPR 레퍼런스로 삼아서 개인정보 보호법을 만들거나 개편하고있고 한국도 2023년 9월에 개정된 개인정보 보호법이 나왔다.


HIPAA

ePHI: 개인의 의료정보가 무엇인지 18가지 정도를 정의한다.

EHR: 의료 정보 기록 시스템

EHR은 개인의 의료 기록을 남기는 것이 목적이 아니다.

똑같은 EHR 시스템을 사용해도 병원이나 의사에 따라 다양한 형태로 기록된다.


HIPAA Penalty

합리적인 이유가 있다면 100불에서 50000불이고, 고의적이라면 10000불에서 50000불에 감옥에 갈 수도 있다.

모든 데이터는 암호화해 외부에 노출되어도 안전하게 처리한다.


강의 복습 및 마무리

데이터 조직이 하는 일이 어떤 일이고 데이터 조직이 어떻게 가치를 만들어 내는가

가치를 만들어내기 위해서 필요한 직군 (데이터 엔지니어, 데이터 분석가, 데이터 과학자)

직군별 어떤 일을 하고 어떤 역량이 필요한가

데이터 조직이 가치를 만들어 내는 방법 (데이터 기반 의사결정 - 데이터 분석가: 조직 구조의 영향을 많이 받는다)

데이터 과학자는 머신러닝이라는 형태롤 제품을 개선하거나 운영을 최적화해 비용을 줄인다. (이 일을 하는 팀을 product science라고 한다.)

머신러닝의 종류 (supervised, unsupervised, reinforcement learning)

Gen AI를 바탕으로 큰 혁신이 만들어졌다. (ChatGPT)

Gen AI가 무엇인가

개인정보가 무엇인가

개인정보 보호가 무엇인가

개인정보 보호법에는 무엇이 있는가


공부하며 어려웠던 내용

어려웠던 내용은 아니지만 데이터 일을 하면서 개인정보를 보호하는 것이 정말 중요하다는 것을 알았습니다. 또한 데이터 관리를 잘하지 못하면 시간과 비용을 낭비할 수 있기 때문에 데이터 관리가 중요하다는 것을 알았습니다.


0개의 댓글