식별자 제거를 통해 식별을 방지하거나, 비식별화 모델을 기반해 추론을 방지하는 것. 빅데이터 비식별화 기본 원칙에는 식별방지(식별자 제거), 추론방지(비식별화 모델 준수) 두가지가 존재. 비식별화 모델이란 다양한 추론 공격에 대해 개인정보 추론 위험 정도를 확률적/정량적으로 제한하는 방법론.
개인 또는 개인과 관련한 사물에 고유하게 부여된 값 또는 이름. 정보집합물에 포함된 식별자는 삭제하는 것이 원칙이지만, 데이터 이용 목적상 반드시 필요한 식별자는 비식별 조치 후 활용해야 함.
식별자는 아니지만 개인과 관련된 정보로 다른 정보와 쉽게 결합하는 경우 특정 개인을 알아볼 수도 있는 정보.
정보집합물에 포함된 속성자도 데이터 이용 목적과 관련이 없는 경우에는 원칙적으로 삭제해야함. 데이터 이용 목적과 관련이 있는 속성자 중 식별요소가 있는 경우에는 변형/조작 하여 비식별 조치 해야함.
개인의 사생활을 드러낼 수 있는 속성. 데이터 분석시 주로 측정되는 대상 속성으로, 대부분의 현대적 비식별화 기법들에서 해당 값들을 보존함.
가능한 추론의 형태와 사생활 노출에 대한 정량적인 위험성을 규정하는 방법론
- 관계형 마이크로 데이터를 위한 프라이버시 모델
- k-anonymity(익명성), l-diversity(다양성), t-closeness(근접성)
- δ-presence, m-invariance, m-confidentiality, m-privacy 등
- 기타 유형의 데이터를 위한 비식별화 모델
- 그래프 데이터, 스트림 데이터, 위치 데이터 등
일반적으로 데이터를 활용할 때, 개인을 직접 식별할 수 있는 식별자는 삭제한다. 하지만 일부 데이터가 다른 데이터와 결합하여 개인이 식별될 수 있는 문제가 발생할 수 있다.
k-익명성 모델은 비식별화를 할 때 정보의 다양성을 고려하지 않고, 공격자의 배경지식을 고려하지 않아 이를 이용한 공격에 취약함
ℓ-다양성 모델에 의해 비식별되었더라도 쏠림 공격 및 유사성 공격을 방지하기 위해선 t-근접성 적용 필요