0. 데이터 관련 주의해야 할 이슈들
Data Warehouse : 정보(data)와 창고(warehouse)의 의미가 합성되어 만들어진 합성어. 데이터 웨어하우스는
축적된 데이터를 공통의 형식으로 변환하여 관리하는 데이터베이스를 의미하며, 다음 4가지의 특성을 가진다.
- 주제 지향적 (subjectoriented) : 데이터를 주제별로 구성하여 최종 사용자도 이해하기 쉬운 형태로 제공해야 한다.
- 통합적 (integrated) : 데이터 웨어하우스에 들어가는 데이터의 형식은 통일되어 있어야 한다.
- 시계열적 (timevarient) : 데이터 웨어하우스의 데이터는 일정 기간 동안 정확성을 나타낸다.
- 비휘발적 (nonvolatile) : 데이터가 데이터 웨어하우스에 적재되면 일괄 처리(batch) 작업에 의한 갱신 이외에는
「Insert」나 「Delete」등의 변경이 수행되지 않는다.
Data Lake : 데이터 레이크는 구조화되거나, 반구조화되거나, 구조화되지 않은 대량의 데이터를 저장, 처리,
보호하기 위한 중앙 집중식 데이터베이스이다. 데이터 레이크는 데이터를 기본 형식으로 저장할 수 있으며,
크기 제한을 무시하고 다양한 데이터를 처리 할 수 있습니다.
모든 조직에서 데이터 생성과 사용 증가로 인한 데이터 탈중앙화(Data Decentralization) ->
데이터 팀이 모든 데이터를 관리하는 것이 아니라, 각 팀 별로 데이터를 생성 및 유지.
데이터 사용자의 폭발적인 증가 -> 데이터 민주화(Data Democratization) ->
기술적 지식이 없는 보통의 정보 시스템 사용자가 외부의 도움 없이도 디지털 정보에 액세스할 수 있게 하는 것. 데이터를 민주화하면 사용자가 생산성에 지장을 주는 병목 상태를 유발하지 않고 중요한 데이터에 제한 없이 액세스할 수 있다.
데이터 사전 (Data Dictionary) : 데이터베이스 관리 시스템(Database ManagementSystem)을 효율적으로 사용하기
위해 데이터베이스에 저장된 정보를 요약한 것이다. 즉, 일련의 데이터를 정의하고 설명해 주는 메타데이터(metadata)를
유지하는 것을 의미한다. 데이터 사전은 데이터 정보를 분류하고 처리하기 위한 시스템과 절차로서 데이터를 이해하는
과정에서 발생하는 오류, 또는 데이터 해석상의 어려움을 제거하기 위해 사용된다.
데이터 카탈로그 (Data Catalog) : 사용자가 필요한 정보를 빠르게 찾을 수 있도록 하는 회사의 데이터 자산 목록.
카탈로그는 대부분 다른 데이터에 대한 기본 정보를 제공하고 그것이 무엇인지 설명하는 메타데이터이다.
사용자는 데이터 관리 및 검색 도구와 결합한 데이터 카탈로그를 갖게 됩니다.
메타데이터 구성 예시) Source of Truth(SOT), 데이터셋을 요청한 팀(데이터셋의 주인),
데이터 분류체계, Access 한 팀, 사용 빈도, ...
데이터 메시는 분산된 소유권을 통해 고급 데이터 보안 문제를 해결하는 아키텍처 프레임워크 이다. 조직에는 분석을위해
통합해야 하는 여러 사업부의 여러 데이터 소스가 있는데, 데이터 메시는 서로 다른 데이터 소스를 효과적으로 통합하고
중앙에서 관리되는 데이터 공유 및 거버넌스 지침을 통해 서로 연결한다. 업무 부서에서는 공유 데이터에 액세스하는
방법, 액세스하는 사람 및 액세스하는 형식을 제어할 수 있다. 데이터 메시는 아키텍처의 복잡성의 증가시키지만
동시에 데이터 액세스, 보안 및 확장성을 증가시켜 효율성을 향상시킨다.
1. 개인정보 보호란
(대한민국) 개인정보보호법 제 2조 1항 : "개인정보"란 살아있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보(해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 것을 포함한다)를 말한다.
(유럽연합) Article 2a: 'personal data' shall mean any information relating to an identified or identifiable natural person ('data subject'); and identifiable person is one who can be identified, directly or indirectly, in particular by reference to an identification number or to one or more factors specific to his physical, physiological, mental, economic, cultural or social identity;
말 그대로 개인을 식별할 수 있는 정보를 의미한다.
또는, 몇가지 조합으로 개인을 식별할 수 있는 경우도 포함한다 (준식별자)
3. 개인정보 보호법의 예시
GDPR(General Data Protection Regulation) : 2018년 5월 25일부터 시행된 유럽연합의 개인정보 보호 법령. 유럽연합의 모든 회원국에게 적용되며, EU 사용자가 있는 웹서비스의 경우 모두 적용대상이다.
GDPR 위반시 페널티
글로벌 기업 Google의 경우는 antitrust laws(반독점법)을 위반하였다고 EU가 50억 달러 (약 한화 6조5천억..)의 벌금을 물었다...
"Google finded a record $5 billion by the EU for Android antitrust violations"
4. 마무리