비즈니스 도메인 정보/원천데이터 수집 ⇒ 내/외부 데이터 수집 ⇒ 데이터 수집 기술
내부 데이터 | 외부데이터 |
---|---|
서비스 시스템, 네트워크 및 서버 장비, 마케팅 데이터 | 소셜데이터, 특정 기관 데이터, M2M 데이터, LOD |
실시간 분석 | 일괄 수집 OR 일정 주기 |
데이터 유형 | 수집 기술 | 사례 |
---|---|---|
정형 데이터 | ETL, FTP, API, DB2DB, Sqoop | RDB, File |
반정형 데이터 | Crawling, RSS(Rich Site Summary) Open API, Chuckwa, Kafka | HTML, XML, JSON, RSS, 웹로그, 센서 |
비정형 데이터 | Flume, Scribe, Sencing, Streaming | 동영상, 이미지, 텍스트 |
Apache Scoop이라고 하며 정형 데이터 수집을 위해 사용한다.
RDBMS → Hadoop 시, MapReduce방식으로 변환 → RDBMS 내보낼 수 있다.
데이터 export/import 모두 맵리듀스 방식을 통해 신속한 병렬 처리 작업을 수행
Bulk import, 데이터 전송 병렬화, Direct Input, Java클래스를 통한 Data Interaction
RSS : 블로그, 뉴스, 쇼핑몰 등의 공유된 글 XML기반 시스템
Chuckwa : 분산 시스템으로부터 데이터를 수집, 하둡 시스템 저장, 실시간 분석기능 제공
Kafka : 대용량 실시간 로그처리 위한 분산 스트리밍 플랫폼
Flume : 분산환경에서의 대량의 로그 데이터 수집 전송/분석
Apach Flume은 대용량의 로그 데이터를 수집/집계/이동 시키는 분산 서비스 솔루션
스트리밍 데이터 흐름에 기반한 간단/유연 구조
하나의 Agent ⇒ [소스-채널-싱크로] 로 이루어진다. 소스는 직접적인 데이터 소스와 연결되며 큐 구조의 채널로 입력된 뒤, 싱크를 통해 목표로 전달.
신뢰성, 확장성, 효율성이 특징
데이터 확보 비용 선정 ⇒ 데이터 크기, 수집 주기, 수집 기술, 수집 방식, 대상 데이터의 가치성 고려
변환해야할 때 주의사항, 등등
데이터베이스 구조 설계 : DBMS 구축 여부설정 → 저장 데이터베이스 설정 → DBMS설치 → 테이블 구조 설계
융합 DB 설계 : 요구사항 분석 → 데이터 표준화/모델링 수행 → 개념적 설계 → 논리적 설계
데이터의 유효성을 유지하면서 개인 식별 가능성을 제거하는 것이 목표이다.
식별자 : 그 자체로 식별 가능한 것
속성자 : 다른 것과 결합하여 식별 가능한 것
가명처리 : 식별요소를 다른값으로 대체. 대체 시 규칙 노출을 주의
- 휴리스틱 가명화 : 사람의 판단에 의한 가명화, 규칙을 정해놓고 인간이 바꿈
- 암호화(Encryption) : 일정한 규칙의 알고리즘을 정해놓고 대체. 복호화 키를 가지고 있으면 해독 가능. 일방향 암호화는 복호화를 없앤거
- 교환 방법(Swapping) : 외부 변수와 연계하여 교환
총계처리 : 총계값을 보여주고 특정 개인을 식별할 수 없도록 한다.
- 부분총계 : 일정부분 레코드만 총계 처리(오차 값이 큰 항목을 평균으로!, 40대 소득 평균값 대체 등)
- 라운딩 : 올림/내림/반올림 - 20대
- 재배열 : 기존 정보 값을 유지하면서 데이터를 섞는다. 타인의 정보를 뒤섞어서 개인식별을 못하게한다. 통계분석만 가능
데이터 삭제 : 일부/전부를 삭제한다.
- 식별자 삭제 : 식별자-Primary Key친구를 삭제한다.
- 레코드 삭제 : 다른 정보와 뚜렷하게 구별되는 레코드를 삭제
- 식별요소 전체 삭제
데이터 범주화 : 특정 정보를 해당 그룹의 대푯값/구간 값으로 변환
- 감추기 : 명확한 값을 숨기기 위해 데이터의 평균/범주 값으로 변환하는 방식이다.
- 랜덤 라운딩 : 수치 데이터를 임의의 수 기준으로 올림/내림
- 범위방법 : 데이터 자체를 범위 값으로 쓰는것
데이터 마스킹 : 데이터 전부/일부분을 대체 값으로 변환한다.
- 임의 Noise추가 : 더하기/곱하기를 통해 임의의 숫자를 추가
- 공백/대체 : 공백 또는 대체문자 활용
적정성 평가 : 프라이버시 보호 모델 최소한 수단으로 k-익명성 ⇒ l-다양성, t-근접성 활용
“주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 한다.”
k-익명성의 동질성 / 배경지식을 방어하기 위한 모델
“주어진 데이터 집합에서 비식별 되는 레코드들은 적어도 l개의 다른 정보를 취한다.”
취약점 :
l-다양성의 취약점을 보완하기 위한 모델
“특정 정보의 분포가 전체분포와 t 이하의 차이를 보여야 하며 다른 분포와 비교하여 너무 특이하지 않도록 한다.”
유일유정완
완전성 - 누락없애기
개별 완전성 : 필수항목에 누락 없어야 한다.
조건 완전성 : 조건에 따라 칼럼값 항상 존재
유일성 - 데이터 항목은 유일해야 하며 같은 값 존재 X
단독 유일성 : 칼럼은 유일한 값 가져야 함 (이메일 주소)
조건 유일성 : 업무 조건에 따라 유일성 다름
일관성 - 데이터 구조/지켜야할 값/형태를 일관되게 해야 함
기준코드 일관성 : 데이터 구조, 표현 형태가 일관되게 정의되어야 하며, 서로 일치해야함
참조 무결성 : 테이블 간 칼럼값이 참조관계일 경우 무결성 유지해야 함.
데이터 흐름 일관성 : 데이터 생성/가공/이동 시 연관 데이터는 모두 일치해야함(정합성)
칼럼 일관성 : 중복 칼럼을 임의 생성하여 활용 경우, 동의어 칼럼 값은 일치
유효성 - 데이터는 유효범위를 지켜야 함
범위 유효성, 날짜 유효성, 형식 유효성
정확성 - 실세계 존재 값이 정확히 반영
선후 관계 정확성, 계산/집계 정확성, 최신성, 업무규칙 정확성
이기신사효
기능성 : 명시된 요구-기능을 제공하는 정도
신뢰성 : 규정된 조건에서 사용될 때 규정된 신뢰수준을 유지
사용성 : 사용자에 의해 이해되고 선호 될 수 있게 하는 정도
효율성 : 자원에 따라 요구된 성능을 제공한다.
이식성 : 다양한 환경과 상황에서 기능을 수행할 수 있다.
12241 23414 43143 34123
데이터 변환 방식의 종류
TCP-OpenAPI는 변환이 아니라 수집이다..!!
비정형 데이터 품질기준