<데이터 익명화를 위한 파이프라인> 후기

yule_mu·2022년 5월 29일
0

http://www.yes24.com/Product/Goods/108802594

우리들은 데이터가 산재한 세상에 살고 있다. 인터넷 기록은 로그로 남고, 우리들 자신의 개인정보가담긴 정보들이 디지털화 되어 어딘가에 저장되어 있다. 그런데, 이러한 데이터는 개인의 정보이기 때문에 직원들이 함부로 열람하거나, 보안 문제로 유출된다면 큰 문제가 생긴다. 따라서, 데이터를 익명화하여 해당 데이터가 특정인 누구에게 귀속되어있는지 알기 힘들게 해야 한다. 이러한 과정을 비식별화라고 한다.

문제는 비식별화 데이터를 보고 누구인지 다시 인식하는 ‘재식별화’가 생각보다 어렵지 않다. 예컨대, 94년 4월 생 남자 김길용씨가 어제 3시 39분에 샘빛한의원에 방문하고, 오늘 4시 15분에 히어로마트에서 우유를 구매했다. 이러한 데이터를 90~95년생 남자 id 19203이 어제 3~6시에 죽전에 위치한 한의원 방문, 오늘 3~6시에 죽전에 위치한 마트에 방문했다고 하자. 비식별화 작업을 통해 바로 데이터를 식별하긴 어려워졌지만, 만약 이 중 일부의 원본 데이터를 갖고 있다면 이야기는 달라질 수 있다. 예컨대, 죽전에 위치한 의원 원본 데이터를 갖고 있고, ‘90~95년생 남자 어제 3~6시에 죽전에 위치한 한의원 방문’이라는 비식별화된 데이터를 입수했다고 가정하자. 보유한 비식별 데이터에 해당하는 사람의 수를 추리고, 이러한 비식별화된 데이터가 3~4개 정도 있다면 id19203을 ‘김길용’씨로 특정가능하다. 따라서, 그의 주민번호도 이름과 매칭시켜 악용될 수 있다.

따라서, 이 책에서 다룬 비식별화 뿐 아니라 안전한 다자간 연산(secure multiparty computation)과 동형 암호(homomorphic encryption) 기술로도 진보해야할 것이다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

profile
Java 백엔드 개발자가 되고 싶습니다. 매일 공부한 기록을 올리며 반추합니다.

0개의 댓글