"'데이터 무결성' 확보해야 하지만... 흔한 함정 4가지"를 읽고

UntoC·2021년 11월 23일

bigdata hye 데이터무결성 빅데이터

빅데이터

목록 보기

1/1

원문 링크 (원문 작성 일자 : 2021년 11월 18일)

IDG Connect - 데이브 랭톤(마틸리안의 제품 담당 부사장) : '데이터 무결성' 확보해야 하지만... 흔한 함정 4가지

기사의 이해를 돕기 위한 몇 가지 단어

initiative (이니셔티브)

: 문제를 해결하기위한 계획이라는 의미로 자주 사용된다. plan (계획, 새로운 사업 구상) '에 가까운 말.

GDPR(General Data Protection Regulation, EU 개인 정보보호 규정)

: 기업들이 EU 가입국에서 발생하는 '거래(상행위 또는 트랜젝션)'에서 EU 국민들의 개인 데이터와 프라이버시를 보호할 것을 의무화하는 규정

기사요약

데이터 무결성(Data Integrity)이란 시스템에 있는 데이터의 정확성, 완전성, 일관성, 합치를 아우르는 용어이다. 이 정의는 여러 데이터 측면으로 구성된다. 예를 들어 데이터의 물리적 무결성(데이터가 안전하게 저장되는 방식), 데이터의 논리적 무결성(정확성, 완전성, 확실성), 합치의 문제(데이터가 *GDPR 등 필수 표준에 부합하는지 여부) 등이다. 오늘날은 매일 생성되는 데이터의 양이 기하급수적으로 늘어나고 있다. 데이터 무결성의 달성은 궁극적으로 한층 우수한 성과, 신뢰성, 액세스를 조직에게 보장하는 방법이다. 데이터 무결성 *이니셔티브를 시작할 때 알고 있어야 하는 것으로는 1.책임성 평가. 2.노후 및 중복 시스템. 3.부정확 또는 누락데이터. 4.데이터의 흐름을 놓침. 과 같은 4가지 핵심적 위험이 있다. 그리고 현대의 데이터 팀이 도입해야 할 핵심 요소로는 데이터 무결성 계획에는 1.통합에 투자하라. 2.데이터 관리자를 임명하고 교육. 3.감사 및 검증. 4.테스트 및 반복. 의 4가지를 들 수 있다.

데이터 무결성 *이니셔티브를 시작할 때 알고 있어야 할 4가지 핵심적 위험

책임성 평가
: 일률적 표준이 없다면 데이터를 입력하고 데이터로 작업하는 일은 데이터 시스템 전체에 걸쳐 불일치를 생성할 수 있다. 책임성은 어느 조직이 되었든 성공에 핵심적이고, 데이터 관리 측면에서 특히 중요하다. 책임성이 없다면 데이터 무결성에 대한 최종 책임자가 누구인지 불확실할 것이다.
노후 및 중복 시스템
: 일관성은 데이터 무결성의 또 다른 원리이고, 중복 및 노후 시스템에 의해 빈번하게 훼손된다. 중요한 상세 데이터가 데이터베이스 전체에 걸쳐 표준 포맷으로 저장되었는가? 조직 내 상이한 집단이 동일한 데이터세트를 가지고 일하는가? 일관성 없는 데이터는 중복 기록, 특정 기준에 미달하는 데이터, 또는 특정 시간에 접근할 수 없는 데이터를 생성하면서 품질을 저해한다.
부정확 또는 누락 데이터
: 데이터가 늘어날수록 불완전하거나 부정확한 기록을 포착하기가 더 어려워진다. 다수의 이종 시스템으로부터 상이한 시점에 수집된 데이터를 통일하는 일 역시 증가 중인 데이터 풀에 깊숙이 묻혀있는 맹점이나 부정확을 남길 수 있다. 무결성은 정확성과 아울러 미래의 데이터 수요를 감당할 수 있는 능력을 요구한다.
데이터의 흐름을 놓침
: 실수를 추적하고 이를 몇 주, 몇 달, 몇 년 동안 해결하려는 시도가 가져오는 복잡성은 최초의 오류보다 더 값비쌀 수 있다. 데이터에 대한 확실한 감사용 기록(audit trail, or audit log)의 부재는 변경 주체와 변경 시점에 대한 불확실성을 의미한다. 감사용 기록을 유의미한 검토 없이 확립한다면 문제가 된다.

현대의 데이터 팀이 도입해야 할 데이터 무결성 계획의 4가지 핵심 요소

통합에 투자하라
: 장기 투자로서 지금 데이터를 통합하는 데 필요한 시간과 자원은 데이터 세트가 커졌을 때 조직이 절약할 수 있는 자금과 인력에 비하면 사소할 것이다. 데이터 준비 및 ETL(Extract, Transform, Load) 애플리케이션 등의 솔루션은 데이터를 정리하고 그 과정에서 데이터를 정화하면서 일관성을 향상시킬 수 있다. ETL은 데이터 양이 증가하고 데이터 유형이 한층 다양해짐에 따라 필수적이다.
데이터 관리자를 임명하고 교육
: 특정한 데이터 세트나 조직 전체의 데이터 시스템을 감독할 ‘데이터 관리자(data steward)’를 임명해 직원들의 의지처로 만들어야 한다. 아울러 정기적인 직원 교육은 입력 시점의 오류를 최소화할 수 있고, 책임성 체계, 그리고 명확한 데이터 관리 체계를 정착시킬 수 있다. 데이터 팀이 확장될 때 데이터 카탈로그는 데이터 세트의 신뢰를 증진함으로써 데이터 이용을 한층 민주화한다.
감사 및 검증
: 또한 데이터 관리인은 감사 로그를 모니터하고 신속한 교정 조치를 취할 수 있다. 감사 로그는 변경을 일일이 추적하며 어떤 변경이 누구에 의해 이루어졌는지를 드러낸다. 부정확하거나 불완전한 데이터가 식별될 뿐 아니라 출처까지 추적된다. 이런 과정을 통해 관리자는 조직의 미래를 이끌어가는 데 의존하는 데이터를 확실하게 검증할 수 있다.
테스트 및 반복
: 감사 로그는 정기적으로 검토되지 않는다면 그다지 효과가 없다. 정기 테스팅 체계를 생성해 강력한 검증 과정을 증강한다면 데이터 정확성에 대한 추측을 피할 수 있다. 이는 예를 들어 데이터가 몇 주나 몇 달 동안 상충되는 필드 유형에 기입되지 않도록 보장하는 데 도움이 된다. 병원에 가는 것과 마찬가지로 문제를 조기에 발견하는 일은 흔히 문제에 대처하는 최고의 방법이다.

UntoC

정컴동아리의 기사 요약 일지🧡