[DevCourse] Day 5 - 데이터 활용시 고려할 점

한상우·2023년 11월 24일
0

Data Science Devcourse

목록 보기
5/25

0. 데이터 관련 주의해야 할 이슈들

데이터와 관련된 최근 변화들

  • 데이터 소스와 양의 폭발적인 증가로 인해 데이터베이스의 형태가 Data Warehouse에서 Data Lake로 변화 -> 데이터를 전처리하여 저장하기 보다, 필요한 경우에만 데이터를 처리.
Data Warehouse : 정보(data)와 창고(warehouse)의 의미가 합성되어 만들어진 합성어. 데이터 웨어하우스는
축적된 데이터를 공통의 형식으로 변환하여 관리하는 데이터베이스를 의미하며, 다음 4가지의 특성을 가진다.

- 주제 지향적 (subjectoriented) : 데이터를 주제별로 구성하여 최종 사용자도 이해하기 쉬운 형태로 제공해야 한다.

- 통합적 (integrated) : 데이터 웨어하우스에 들어가는 데이터의 형식은 통일되어 있어야 한다.

- 시계열적 (timevarient) : 데이터 웨어하우스의 데이터는 일정 기간 동안 정확성을 나타낸다.   

- 비휘발적 (nonvolatile) : 데이터가 데이터 웨어하우스에 적재되면 일괄 처리(batch) 작업에 의한 갱신 이외에는 
 「Insert」나 「Delete」등의 변경이 수행되지 않는다.
Data Lake : 데이터 레이크는 구조화되거나, 반구조화되거나, 구조화되지 않은 대량의 데이터를 저장, 처리, 
보호하기 위한 중앙 집중식 데이터베이스이다. 데이터 레이크는 데이터를 기본 형식으로 저장할 수 있으며, 
크기 제한을 무시하고 다양한 데이터를 처리 할 수 있습니다.
  • 모든 조직에서 데이터 생성과 사용 증가로 인한 데이터 탈중앙화(Data Decentralization) ->
    데이터 팀이 모든 데이터를 관리하는 것이 아니라, 각 팀 별로 데이터를 생성 및 유지.

  • 데이터 사용자의 폭발적인 증가 -> 데이터 민주화(Data Democratization) ->
    기술적 지식이 없는 보통의 정보 시스템 사용자가 외부의 도움 없이도 디지털 정보에 액세스할 수 있게 하는 것. 데이터를 민주화하면 사용자가 생산성에 지장을 주는 병목 상태를 유발하지 않고 중요한 데이터에 제한 없이 액세스할 수 있다.

변화에 따라오는 문제점

  • 개인 정보가 제대로 보호되지 않을 수 있다.
    • 개인정보와 관련해서는 아래에서 자세하게 알아보자.
  • 같은 데이터여도 해석이 서로 다를 수 있다.
    • 지표에 대한 정확한 정의가 없거나, 서로 다른 데이터를 사용하여 지표를 계산하는 경우
    • solution) 데이터 사전(혹은 데이터 용어집)을 만들어 데이터 소스, 필터링 등 조건을 명확하게 해야한다
데이터 사전 (Data Dictionary) : 데이터베이스 관리 시스템(Database ManagementSystem)을 효율적으로 사용하기
위해 데이터베이스에 저장된 정보를 요약한 것이다. 즉, 일련의 데이터를 정의하고 설명해 주는 메타데이터(metadata)를 
유지하는 것을 의미한다. 데이터 사전은 데이터 정보를 분류하고 처리하기 위한 시스템과 절차로서 데이터를 이해하는 
과정에서 발생하는 오류, 또는 데이터 해석상의 어려움을 제거하기 위해 사용된다.
  • 너무 많은 Dashboard나 Table
    • 데이터 사용자들이 필요할때마다 Dashboard나 Table을 만들어 정보가 과도하게 많은 경우
    • 필요한 Data를 찾아내기도 힘들며 비용적으로도 효율적이지 않음
    • solution) 데이터 카탈로그를 도입하여 메타 데이터를 관리.
데이터 카탈로그 (Data Catalog) : 사용자가 필요한 정보를 빠르게 찾을 수 있도록 하는 회사의 데이터 자산 목록. 
카탈로그는 대부분 다른 데이터에 대한 기본 정보를 제공하고 그것이 무엇인지 설명하는 메타데이터이다.
사용자는 데이터 관리 및 검색 도구와 결합한 데이터 카탈로그를 갖게 됩니다.

메타데이터 구성 예시) Source of Truth(SOT), 데이터셋을 요청한 팀(데이터셋의 주인),
                   데이터 분류체계, Access 한 팀, 사용 빈도, ...
  • Data Silo 현상
    • 데이터가 격리되어 특정 조직/부서/단위에서만 정보 접근 및 공유가 가능하여 다른 조직/부서/단위에서는 데이터가 격리되는 현상. 각 부서별로 데이터에 쉽게 접근할 수 없는 분리된 현상을 겪음으로 조직 내 단절을 유발시킨다. 이는 곧 조직 내의 비효율을 증가시키고, 부서 별 목표를 위해 자체적으로 데이터를 활용함으로써 기업이 공통된 목표를 가지고 나아가는데 어려움을 겪게된다.
    • 동일한 데이터를 여러 조직에서 중복 수집하고 처리하거나, 데이터 독점을 통해 권력이 되기도 한다.
      -solution) 데이터 메시(Data Mesh)
데이터 메시는 분산된 소유권을 통해 고급 데이터 보안 문제를 해결하는 아키텍처 프레임워크 이다. 조직에는 분석을위해
통합해야 하는 여러 사업부의 여러 데이터 소스가 있는데, 데이터 메시는 서로 다른 데이터 소스를 효과적으로 통합하고 
중앙에서 관리되는 데이터 공유 및 거버넌스 지침을 통해 서로 연결한다. 업무 부서에서는 공유 데이터에 액세스하는 
방법, 액세스하는 사람 및 액세스하는 형식을 제어할 수 있다. 데이터 메시는 아키텍처의 복잡성의 증가시키지만
동시에 데이터 액세스, 보안 및 확장성을 증가시켜 효율성을 향상시킨다.

1. 개인정보 보호란

개인정보의 정의 (나라별)

  • (대한민국) 개인정보보호법 제 2조 1항 : "개인정보"란 살아있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보(해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 것을 포함한다)를 말한다.

  • (유럽연합) Article 2a: 'personal data' shall mean any information relating to an identified or identifiable natural person ('data subject'); and identifiable person is one who can be identified, directly or indirectly, in particular by reference to an identification number or to one or more factors specific to his physical, physiological, mental, economic, cultural or social identity;

  • 말 그대로 개인을 식별할 수 있는 정보를 의미한다.

    • ex) 성명, 이메일주소, 전화번호, 주소, 신용카드 정보, ...
  • 또는, 몇가지 조합으로 개인을 식별할 수 있는 경우도 포함한다 (준식별자)

    • ex) 나이, 사는 도시, 직장, ...

개인정보 보호

  • 개인의 정보를 적절한 동의없이 저장하고 사용하지 않는 것
  • 개인의 정보를 적절한 동의없이 노출하거나 배포하지 않는 것
  • 내부자에 의한 실수로 개인정보가 유출되거나, 외부자에 의해 개인정보가 유출 될 수 있음
    • 내부나의 단순한 실수에서 비롯한 Data Leak는 기관에 따라 14% ~ 37%로 예측
    • 외부자의 경우는 해커, 랜섬웨어, 사이버 범죄조직, ...

3. 개인정보 보호법의 예시

  • GDPR(General Data Protection Regulation) : 2018년 5월 25일부터 시행된 유럽연합의 개인정보 보호 법령. 유럽연합의 모든 회원국에게 적용되며, EU 사용자가 있는 웹서비스의 경우 모두 적용대상이다.

  • GDPR 위반시 페널티

    • 레벨 1 (일반적 위반사항) : 대리인 미지정 위반, 유출 통지 위반, 개인정보 처리활동 기록 위반, ...
      • 벌금 : max(전년도 기준 매출액의 2%, 1천만 유로)
    • 레벨 2 (중요한 위반사항) : 국외이전 규정 위반, 개인정보처리 기본원칙 위반, 정보주체의 권리 보장 의무 위반, ...
      • 벌금 : max(전년도 기준 매출액의 4%, 2천만 유로)
  • 글로벌 기업 Google의 경우는 antitrust laws(반독점법)을 위반하였다고 EU가 50억 달러 (약 한화 6조5천억..)의 벌금을 물었다...
    "Google finded a record $5 billion by the EU for Android antitrust violations"

4. 마무리

  • 회사 입장에서는 벌금 내기 싫어서라도 보안을 철저하게 해야 할 것 같다...
  • 데이터와 관련된 여러 문제들을 방지하기 위해서는 메타데이터의 관리가 가장 기초가 되는 것 같다
profile
개인 공부용 블로그입니다

0개의 댓글

관련 채용 정보