구분 | 내용 |
---|---|
통합된 데이터 (integraged data) | - 동일한 내용의 데이터가 중복되어 있지 않다. - 데이터 중복은 관리상의 복잡한 부작용을 초래한다. |
저장된 데이터(stored data) | - 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장된다. - 데이터베이스는 기본적으로 컴퓨터 기술을 바탕으로 한 것이다. |
공용 데이터 (shared data) | - 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있다. - 대용량화되고 구조가 복잡한 것이 보통이다. |
변하기 쉬운 데이터 (changeable data) | - 데이터베이스에 저장된 내용은 곧 데이터베이스의 현 시점에서의 상태를 나타낸다. - 다만 이 상태는 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터를 유지해야 한다. |
이유 | 내용 |
---|---|
데이터 활용 방식 | 데이터 활용 방식에는 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없게 되었다. 따라서 가치를 선정하는 것도 어려워졌다. |
새로운 가치 창출 | 빅데이터 시대에는 데이터가 '기존에 없던 가치'를 창출함에 따라 그 가치를 측정하기가 어려워졌다. |
분석 기술 발전 | 현재는 가치가 없는 데이터일지라도, 추후에 새로운 분석 기법이 등장한다면 거대한 가치를 지닌 데이터가 될 수도 있다. |
비식별 기술이란 데이터 셋에서 개인을 식별할 수 있는 요소의 전부 또는 일부를 삭제하거나 다른 값으로 대체하는 방법으로 개인을 알아볼 수 없도록 하는 기술을 일컫는다.
비식별 기술의 종류와 예시
비식별 기술 | 내용 | 예시 |
---|---|---|
데이터 마스킹 | 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술 | 홍길동, 35세, 서울 거주, 한국대 재학 → 홍OO, 35세, 서울 거주, OO대학 재학 |
가명처리 | 개인정보 주체의 이름을 다른 이름으로 변경(대체)하는 기술, 다른 값으로 대체할 시 일정한 규칙이 노출되지 않도록 주의해야 함 | 홍길동, 35세, 서울 거주, 한국대 재학 → 임꺽정, 30대, 서울 거주, 국내대 재학 |
총계처리 | 데이터의 총합 값을 보임으로써 개별 데이터의 값을 보이지 않도록 함. 단, 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인 정보를 공개하는 것과 마찬가지의 결과이므로 주의해야 함 | 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm → 물리학과 항색 키 합 : 660cm, 평균키 : 165cm |
데이터값 삭제 | 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중 필요 없는 값 또는 개인식별에 중요한 값을 삭제, 개인과 관련된 날짜 정보(자격취득일자, 합격일 등)은 연단위로 처리 | 홍길동, 35세, 서울 거주, 한국대 졸업 → 35세, 서울 거주 주민등록번호 901206-1234567 → 90년대 생, 남자 |
데이터 범주화 | 데이터의 값을 범주의 값으로 변환하여 값을 숨김 | 홍길동, 35세 → 홍씨, 30~40세 |
종류 | 명령어 |
---|---|
데이터 조작어 (DML : Data Manipulation Language) | SELECT INSERT UPDATE DELETE |
데이터 정의어 (DDL : Data Definition Language) | CREATE ALTER DROP RENAME TRUNCATE |
데이터 제어어 (DCL : Date Control Language) | GRANT REVOKE |
트랜잭션 제어어 (TCL : Transaction Control Language) | COMMIT ROLLBACK SAVEPOINT |