실습 전...
엑셀, 개발에 지식이 있다면 좀 더 수월할 수 있다.
개인정보 속성분류 | 식별에 대한 영향 | 프라이버시 침해 가능성 |
---|---|---|
고유식별자 | 매우 높음 | 일부 있음 |
준식별자 | 높음 | 일부 있음 |
민갑정보 | 거의 없음(단, 특이치 경우 높음) | 매우높음 |
일반정보 | 거의없음(단, 특이치의 경우 높음) | 거의없음 |
통계자료의 3가지 속성
구분 | 내용 | 활용도 및 특징 |
---|---|---|
자료 | (범주속성)자료의 범위 지정하는 자료 (요약속성)통계수치 자료 | |
메타데이터 | 자료를 설명하는 자료(data for data) 마이크로 데이터의 재집계에 필수적으로 필요한 자료 | 관리 소홀이 우려되는 자료 |
자료형태로 데이터 분석
특이정보 관찰법
관찰방법 | 기법 | 상세내용 |
---|---|---|
k-익명성 | 동질그룹분석 | 준식별자로 묶어 최소의 수로 구성되는 동질 그룹 관찰 |
Outlier | 3시그마 규칙 | 3시그마 규칙 벗어난 데이터 관찰 |
사분위수 분석 | ||
도수분포표 | 빈도분석 |
수치형 관찰방법
범주형 관찰방법
기존 비식별화 기술이 프라이버시를 더 잘 보호할 수록 데이터 유용성은 떨어진다.
기존 비식별화 기술로 데이터 정확도 높이면 프라이버시 보호 수준 떨어진다.
⇒ 데이터 정확도와 프라이버시 보호 수준은 반비례하다.
ISO/IEC 20889 기준 분류
=PERCENTILE.INC("데이터범위", "백분위수")
=ROUND("입력값", 정수 또는 소수점 구분과 자리수 입력)
[]
: 이상, 이하()
: 초과, 미만=QUOTIENT(입력값,나눌값)
$
의미? 절대 참조
셀 참조를 고정하여 수식을 복사하거나 이동할 때 참조가 변경되지 않도록 한다.
=QUOTIENT(입력값,나눌값)+1
CONCATENATE
로 함수 결합하기=CONCATENATE(
"[", // 형식지정
QUOTIENT(P3,$Q$3)*$Q$3,
// P3를 Q3으로 나눈 몫에 Q3 값을 곱해 범위의 시작값 찾기
",", // 형식지정
(QUOTIENT(P3,$Q$3)+1)*$Q$3,
// P3를 Q3으로 나눈 몫+1에 Q3 값을 곱해 범위의 마지막 값 찾기
")" // 형식지정
)
=INDEX(데이터범위, 선택열)
=RANDBETWEEN(난수최소값, 난수최대값)
범위 설정 남자
코드값 00~04, 여자 코드값 05~09
범위 내에서 중복되지 않게 값 부여
=IF(조건문,
// if문이 참인 경우
INDEX(기준데이터범위,RANDBETWEEN(난수최솟값,난수최댓값)),
// if문이 거짓인 경우
INDEX(기준데이터범위,RANDBETWEEN(난수최솟값,난수최댓값))
)
=REPT(반복문자, 반복회수)
=LEN(입력문자열)
=CONCATENATE(연결문자1, … , 연결문자n)
=LEFT(셀 위치,남겨둘 범위),REPT("반복문자", LEN(범위)-남겨둘 범위)
여러 개 함수를 결합해야하는 경우 &
,
로 결합 가능
=sgMAXLEN(데이터범위)
=sgSplit(입력문자열, 분리문자, [반환수준])
=sgMid(입력문자열, 분리시작위치, [반환글자수])
=COUNTIF(데이터범위, 검색값)
=sgSHA512(변환할 값)
함수로 값을 얻었으면 column 선택 → 복사 → 같은 자리에 '값'으로붙여넣기
1. 데이터 추출
- 회원정보
- 응시정보
=> CSV 파일로 추출
2. 목적 정리
3.개인정보 속성 구분 정리
- 식별자 : 이메일(회원ID, 이메일주소)
- 준식별자 : 이름, 생년월일, 응시번호
=> 나머지 정리
4. 자료형태 ===> 정리
5. 가명처리 수준정의
- 주소 : 범주화 ( 문자열분리, 시군표시 )
- 핸드폰번호 : 범주형 (마스킹, 중간 4자리 * 처리)
- 성별 : 코드화 ( 랜덤 5가지 )
- 나이 : 범주화 ( 구간단위 )
- 응시횟수 : 범주화 ( 구간단위 )
- 점수 : 라운딩 (첫째자리 )
- 자격증 : 빈도 (1 삭제)
6. 가명처리
===> 가명처리 진행
A | B | C | D | |
---|---|---|---|---|
1 | 이름 | 생년월일 | 성별 | 주소 |
2 | 이녹월 | 1965-04-03 | M | 경기도 수원시 권선구 덕영대로 960 |
=CONCATENATE(A2,B2,C3,$g$2)
=sgSHA256(값)