최신 빅데이터 상식을 알아보자.
DBMS
DataBase Management System
의 약자.데이터베이스
를 관리
하여 응용 프로그램
들이 데이터베이스를 공유
하며 사용할 수 있는 환경
을 제공하는 소프트웨어데이터베이스
를 구축하는 틀
을 제공하며, 효율적인 데이터 검색, 저장, 기능
등을 제공데이터베이스 관리시스템 종류
관계형 DBMS
컬럼
과 로우
를 이루는 하나 이상의 테이블
로 정리고유키
가 각 로우를 식별로우
는 레코드
나 튜플
로 부름엔터티 타입(ex.고객)
을 대표인스턴스
를 대표값
들을 대표객체지향 DBMS
관계형DB
와 다르게 정보를 객체
형태로 표현네트워크 DBMS
레코드
들이 노드
로, 레코드들 사이의 관계
가 간선
으로 표현되는 그래프
기반 데이터베이스 모델계층형 DBMS
트리 구조
를 기반으로 하는 계층
데이터베이스 모델데이터베이스
의 설계절차
요구사항 분석
->개념적 설계
->논리적 설계
->물리적 설계
->구현
Relationship
두 개의 엔터티
사이에 존재
하는 많은 관계
중 특별히 관리하고자 하는 직접적인 관계(업무적 연관성)
1:1 관계
단 하나
씩과 관계업무의 흐름
에 따라 데이터가 설계된 형태에서 많이 나타남1:m 관계
m
이고 다른 한쪽은 1
부모와 자식 관계
m:n 관계
1:M
관계로 보는 것데이터 웨어하우스
와 ETL
데이터 웨어하우스
: 방대한 조직 내에서 분산 운영
되는 각각의 데이터베이스 관리 시스템들을 효율적으로 통합
하여 조정/관리
하는 역할을 하여 효율적인 의사결정 시스템
을 위한 기초
를 제공하는 실무적인 활용 방법론특징 | 설명 |
---|---|
주제지향성(Subject Oriented) | 업무중심이 아닌 주제중심 |
통합성(Integrated) | 혼재한 DB로부터의 데이터 통합 |
시계열성(Time Variant) | 시간에 따른 변경 정보를 나타냄 |
비휘발성(Non-Volatile) | 데이터 변경 없이 리포팅을 위한 read only 사용 |
ETL(Extract, Transform, Load)
: 데이터 웨어하우스 구축시 데이터를 운영 시스템
에서 추출
하여 가공(변환,정제)
한 후 데이터 웨어하우스에 적재
하는 과정NoSQL
빅데이터 분산처리
및 저장 기술
과 함께 발달된 분산 데이터베이스 기술
확장성
, 가용성
높은 성능 제공비관계형 데이터베이스 관리 시스템
SQL 계열 쿼리 언어
를 사용할 수 있다는 사실을 강조한 면에서 Not Only SQL
로 불리기도 함Key
와 Value
의 형태로 자료를 저장대용량
데이터 처리와 대규모의 수평적 확장성
제공오픈소스
SQL
Structured Query Language
데이터베이스 하부 언어
완전한 데이터 정의
와 조작
기능을 갖춤테이블 단위
로 연산을 수행비식별 기술
: 데이터 셋에서 개인을 식별
할 수 있는 요소
를 전부
또는 일부
를 삭제하거나 다른값
으로 대체하는 등의 방법으로 개인을 알아볼 수 없도록
하는 기술
비식별 기술 | 내용 | 예시 |
---|---|---|
데이터 마스킹 | 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술 | 홍길동, 35세, 서울 거주, 한국대 재학 ->홍**, 35세, 서울 거주, **대학 재학 |
가명처리 | 개인정보 주체의 이름을 다른 이름으로 변경하는 기술, 다른 값으로 대체할 시 일정한 규칙이 노출되지 않도록 주의 | 홍길동, 35세, 서울 거주, 한국대 재학 ->임꺽정, 30대, 서울거주, 국내대 재학 |
총계처리 | 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않도록 함. 단, 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인정보를 공개하는 것과 마찬가지의 결과임을 주의 | 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm ->물리학과 학생 키 합 : 660cm, 평균 키 165cm |
데이터값 삭제 | 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인 식별에 중요한 값을 삭제. 개인과 관련된 날짜 정보(자격취득일자 등)은 연 단위로 처리 | 홍길동, 35세, 서울 거주, 한국대 졸업 ->90년대 생, 남자 |
데이터 범주화 | 데이터 값을 범주의 값으로 변환하여 값을 숨김 | 홍길동, 35세 ->홍씨, 30~40세 |
*난수화
: 데이터를 특정한 순서
나 규칙
을 가지지 않는 무작위 숫자
로 변화
*익명화
: 데이터에 포함된 개인 식별정보
를 삭제
하거나 알아볼 수 없는 형태
로 변환
데이터 무결성(Data Integrity)
: 데이터베이스 내의 데이터
에 대한 정확한 일관성
, 유효성
, 신뢰성
을 보장하기 위해 데이터 변경/수정
시 여러 가지 제한
을 두어 데이터의 정확성
을 보증하는 것
ex) 개체 무결성
, 참조 무결성
, 범위 무결성
데이터 레이크(Data Lake)
수 많은 정보
속에서 의미있는 내용
을 찾기 위해 방식에 상관없이 데이터를 저장
하는 시스템정형
및 비정형
데이터를 저장
할 뿐만 아니라 접근
도 쉽게 할 수 있는 대규모
의 저장소여러 개의 컴퓨터
를 하나
인 것처럼 묶어 대용량 데이터를 처리
하는 기술분산파일 시스템(HDFS)
을 통해 수 천대의 장비에 대용량 파일
을 저장할 수 있는 기능을 제공맵리듀스(Map Reduce)
로 HDFS
에 저장된 대용량 데이터들을 대상으로 SQL을 이용해 사용자의 질의
를 실시간
으로 처리하는 기술하둡 에코시스템
이 등장하여 다양한 솔루션 제공실시간 분산형 컴퓨팅 플랫폼
스칼라
로 작성되어 있지만 스칼라, 자바, R, 파이썬, API 지원In-Memory
방식으로 처리를 하기 때문에 하둡에 비해 처리속도가 빠름
설비
와 기계
에 사물인터넷(IOT)
가 설치되어, 공정 데이터
가 실시간
으로 수집되고 데이터
에 기반한 의사결정
이 이뤄짐으로써 생산성을 극대화
할 수 있는 기술머신러닝
인간의 학습 능력
과 같은 기능
을 컴퓨터에서 실현하고자 하는 기술 및 기법딥러닝
많은 데이터
를 이용해 사람
처럼 스스로 학습
할 수 있게 하기 위해 인공 신경망(Artificial Neural Network, ANN)
등의 기술을 기반하여 구축한 기계학습 기술
중 하나딥러닝 기법
: DNN, CNN, RNN, LSTM, Autoencoder, RBM 등음성, 영상인식, 자연어처리
등의 여러 분야에서 활용B2B
: 기업
과 기업
사이의 거래를 기반으로 한 비즈니스 모델
ex) 기업
이 필요로 하는 장비
, 재료
나 공사입찰
B2C
: 기업
과 고객
사이의 거래를 기반으로 한 비즈니스 모델
ex) 이동통신사
, 여행회사
, 신용카드회사
, 옥션
, 지마켓
거래정보
를 하나의 덩어리
로 보고 이를 차례로 연결한 거래 장부
거래
에 참여하는 모든 사용자
에게 거래 내역
을 보내 주며 거래 때
마다 이를 대조해 데이터 위조
를 막는 방식 사용유형 | 내용 | 예시 |
---|---|---|
정형 데이터 | - 형태(고정된 필드) - 연산 가능 - 주로 관계형 데이터베이스(RDBMS)에 저장 - 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬움 | 관계형 데이터베이스, 스프레드 시트, CSV 등 |
반정형 데이터 | - 형태(스키마, 메타데이터) - 연산 불가능 - 주로 파일로 저장 - 데이터 수집 난이도가 중간 - 보통 API 형태로 제공되기 때문에 데이터 처리 기술(파싱)이 요구 | XML, HTML, JSON, 로그 형태(웹로그, 센서데이터) 등 |
비정형 데이터 | - 형태가 없음 - 연산 불가능 - 주로 NoSQL에 저장 - 데이터 수집 난이도가 높음 - 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하므로 수집 데이터 처리가 어려움 | 소셜데이터(트위터, 페이스북), 영상, 이미지, 음성, 텍스트(word, PDF 등) 등 |
*메타데이터(Meta Data)
구조화
된 데이터다른 데이터
를 설명
해주는 데이터*스키마(Schema)
구조
와 제약 조건
에 관한 전반적인 명세
를 기록한 메타데이터
의 집합