Chapter3. 데이터 수집 및 저장계획[1] - 데이터 수집 및 전환

Lim SeJin·2024년 8월 26일

빅데이터분석기사 준비

목록 보기

3/3

데이터 수집

비즈니스 도메인 정보/원천데이터 수집 ⇒ 내/외부 데이터 수집 ⇒ 데이터 수집 기술

내/외부데이터

내부 데이터	외부데이터
서비스 시스템, 네트워크 및 서버 장비, 마케팅 데이터	소셜데이터, 특정 기관 데이터, M2M 데이터, LOD
실시간 분석	일괄 수집 OR 일정 주기

정형/반정형/비정형

데이터 유형	수집 기술	사례
정형 데이터	ETL, FTP, API, DB2DB, Sqoop	RDB, File
반정형 데이터	Crawling, RSS(Rich Site Summary) Open API, Chuckwa, Kafka	HTML, XML, JSON, RSS, 웹로그, 센서
비정형 데이터	Flume, Scribe, Sencing, Streaming	동영상, 이미지, 텍스트

모르는것! ETL : 수집 대상 데이터를 추출 및 가공하여 데이터 웨어하우스에 저장하는 기술 FTP(File Transfer Protocol) : TCP/IP/UDP를 통해 파일 송수신 API(Application Programming Interface) : 실시간 데이터 수신 기능 인터페이스 Sqoop : Hadoop ↔ RDBMS 통신방식
- Apache Scoop이라고 하며 정형 데이터 수집을 위해 사용한다.
- RDBMS → Hadoop 시, MapReduce방식으로 변환 → RDBMS 내보낼 수 있다.
- 데이터 export/import 모두 맵리듀스 방식을 통해 신속한 병렬 처리 작업을 수행
- Bulk import, 데이터 전송 병렬화, Direct Input, Java클래스를 통한 Data Interaction
  
  RSS : 블로그, 뉴스, 쇼핑몰 등의 공유된 글 XML기반 시스템
  
  Chuckwa : 분산 시스템으로부터 데이터를 수집, 하둡 시스템 저장, 실시간 분석기능 제공
  
  Kafka : 대용량 실시간 로그처리 위한 분산 스트리밍 플랫폼
  
  Flume : 분산환경에서의 대량의 로그 데이터 수집 전송/분석
- Apach Flume은 대용량의 로그 데이터를 수집/집계/이동 시키는 분산 서비스 솔루션
- 스트리밍 데이터 흐름에 기반한 간단/유연 구조
- 하나의 Agent ⇒ [소스-채널-싱크로] 로 이루어진다. 소스는 직접적인 데이터 소스와 연결되며 큐 구조의 채널로 입력된 뒤, 싱크를 통해 목표로 전달.
- 신뢰성, 확장성, 효율성이 특징

데이터 확보 비용 선정 ⇒ 데이터 크기, 수집 주기, 수집 기술, 수집 방식, 대상 데이터의 가치성 고려

데이터 변환

변환해야할 때 주의사항, 등등

데이터베이스 구조 설계 : DBMS 구축 여부설정 → 저장 데이터베이스 설정 → DBMS설치 → 테이블 구조 설계

융합 DB 설계 : 요구사항 분석 → 데이터 표준화/모델링 수행 → 개념적 설계 → 논리적 설계

데이터 비식별화

데이터의 유효성을 유지하면서 개인 식별 가능성을 제거하는 것이 목표이다.

식별자 : 그 자체로 식별 가능한 것

속성자 : 다른 것과 결합하여 식별 가능한 것

개인 특성(성별, 나이, 고향, 동호회 등), 신체 특성 (혈액형, 신장, 허리둘레 등), 신용특성(세금 납부액 등등)아무튼 본인을 정확하게 식별할 수 없는 그런것들

비식별 처리 방법

가명처리 : 식별요소를 다른값으로 대체. 대체 시 규칙 노출을 주의

휴리스틱 가명화 : 사람의 판단에 의한 가명화, 규칙을 정해놓고 인간이 바꿈

암호화(Encryption) : 일정한 규칙의 알고리즘을 정해놓고 대체. 복호화 키를 가지고 있으면 해독 가능. 일방향 암호화는 복호화를 없앤거

교환 방법(Swapping) : 외부 변수와 연계하여 교환

총계처리 : 총계값을 보여주고 특정 개인을 식별할 수 없도록 한다.

부분총계 : 일정부분 레코드만 총계 처리(오차 값이 큰 항목을 평균으로!, 40대 소득 평균값 대체 등)

라운딩 : 올림/내림/반올림 - 20대

재배열 : 기존 정보 값을 유지하면서 데이터를 섞는다. 타인의 정보를 뒤섞어서 개인식별을 못하게한다. 통계분석만 가능

데이터 삭제 : 일부/전부를 삭제한다.

식별자 삭제 : 식별자-Primary Key친구를 삭제한다.

레코드 삭제 : 다른 정보와 뚜렷하게 구별되는 레코드를 삭제

식별요소 전체 삭제

데이터 범주화 : 특정 정보를 해당 그룹의 대푯값/구간 값으로 변환

감추기 : 명확한 값을 숨기기 위해 데이터의 평균/범주 값으로 변환하는 방식이다.

랜덤 라운딩 : 수치 데이터를 임의의 수 기준으로 올림/내림

범위방법 : 데이터 자체를 범위 값으로 쓰는것

데이터 마스킹 : 데이터 전부/일부분을 대체 값으로 변환한다.

임의 Noise추가 : 더하기/곱하기를 통해 임의의 숫자를 추가

공백/대체 : 공백 또는 대체문자 활용

적정성 평가 : 프라이버시 보호 모델 최소한 수단으로 k-익명성 ⇒ l-다양성, t-근접성 활용

k-익명성

“주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 한다.”

비식별화(프라이버시 보호 모델 최소 조건)
예를 들어 13294, 13259, 13299, 13206 라는 Record를 132**로 변경해서 헷갈리게 해버리는것! 이랬을 때 최소 k개를 k-익명성이라 한다.
동질성 공격에 취약하다 → 범주화 되었다고 해도 동일한 정보를 이용하여 공격한다. 예를 들면, 132가 전부 “위암”이라는 병명일 때 이를 이용하여 정보노출 위험에 빠질 수 있다. (같은게 있음 위험!!!!)**
배경지식에 의한 공격 ⇒ 범주화 된 점의 배경지식을 이용하여 예를 들면 전립선암 → 여자는 아니다! 라는 느낌으로 공격받을 수 있다. (아는게 있음 위험!!!!!!)

l-다양성

k-익명성의 동질성 / 배경지식을 방어하기 위한 모델

“주어진 데이터 집합에서 비식별 되는 레코드들은 적어도 l개의 다른 정보를 취한다.”

취약점 :

쏠림 공격 : 특정한 값에 쏠려있을 경우, 프라이버시 보호 힘듦 (많으면 위험!!!!!!!!!!)
유사성 공격 : 비식별 레코드가 서로 비슷하다면 프라이버시 노출 가능 (비슷하면 위험!!!!!!!!)

t-근접성

l-다양성의 취약점을 보완하기 위한 모델

“특정 정보의 분포가 전체분포와 t 이하의 차이를 보여야 하며 다른 분포와 비교하여 너무 특이하지 않도록 한다.”

t수치가 0에 가까울수록 전체 분포와 가까우며 식별하기 힘듦
특정 데이터 재배치해도 정보 손실 문제 없음

데이터 품질 검증

정형데이터 품질 기준

유일유정완

완전성 - 누락없애기

개별 완전성 : 필수항목에 누락 없어야 한다.

조건 완전성 : 조건에 따라 칼럼값 항상 존재
유일성 - 데이터 항목은 유일해야 하며 같은 값 존재 X

단독 유일성 : 칼럼은 유일한 값 가져야 함 (이메일 주소)

조건 유일성 : 업무 조건에 따라 유일성 다름
일관성 - 데이터 구조/지켜야할 값/형태를 일관되게 해야 함

기준코드 일관성 : 데이터 구조, 표현 형태가 일관되게 정의되어야 하며, 서로 일치해야함

참조 무결성 : 테이블 간 칼럼값이 참조관계일 경우 무결성 유지해야 함.

데이터 흐름 일관성 : 데이터 생성/가공/이동 시 연관 데이터는 모두 일치해야함(정합성)

칼럼 일관성 : 중복 칼럼을 임의 생성하여 활용 경우, 동의어 칼럼 값은 일치
유효성 - 데이터는 유효범위를 지켜야 함

범위 유효성, 날짜 유효성, 형식 유효성
정확성 - 실세계 존재 값이 정확히 반영

선후 관계 정확성, 계산/집계 정확성, 최신성, 업무규칙 정확성

비정형데이터 품질기준

이기신사효

기능성 : 명시된 요구-기능을 제공하는 정도

신뢰성 : 규정된 조건에서 사용될 때 규정된 신뢰수준을 유지

사용성 : 사용자에 의해 이해되고 선호 될 수 있게 하는 정도

효율성 : 자원에 따라 요구된 성능을 제공한다.

이식성 : 다양한 환경과 상황에서 기능을 수행할 수 있다.

문제풀이

12241 23414 43143 34123

오답노트

데이터 변환 방식의 종류

TCP-OpenAPI는 변환이 아니라 수집이다..!!
- 변환 문제이므로, 변환인지 수집인지 확인해야 함
비정형 데이터 품질기준
- 기능성-신뢰성-사용성-효율성-이식성

Lim SeJin

INTJ, Interested in Computer Vision

이전 포스트