[1] 기타 최신 빅데이터 상식

jdsilver96·2022년 2월 19일
0

adsp

목록 보기
13/26

1. DBMS와 SQL

가. DBMS

  1. 의미:Data Base Management System의 약자로 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어
  2. 데이터베이스를 구축하는 틀을 제공, 효율적인 데이터검색, 저장기능 등 제공
  3. 데이터베이스 관리시스템 종류
    • 관계형 DBMS
    • 객체지향 DBMS
    • 네트워크 DBMS: 레코드들이 노드로, 레코드들 관계가 간선으로 표현되는 그래프를 기반으로 한 데이터베이스 모델
    • 계층형 DBMS: 트리구조 기반

나.SQL

  1. 의미: Structured Query Language의 약자
    • 데이터베이스에 접근할 수 있는 데이터베이스의 하부 언어, 단순한 질의 기능 뿐 아니라 완전한 데이터의 정의/조작 기능 갖춤
    • 테이블 단위로 연산 수행

2. 데이터 관련 기술

가. 개인정보 비식별 기술

  1. 데이터 마스킹
  2. 가명처리
  3. 총계처리
  4. 데이터값 삭제
  5. 데이터 범주화

나. 무결성과 레이크

  1. 데이터 무결성(Data Intengrity)
    • 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정 시 여러가지 제한을 두어 데이터의 정확성을 보증하는 것
    • 무결성 제한 유형: 개체무결성(entity integrity), 참조무결성(referential integrity), 범위무결성(domain integrity)
  2. 데이터 레이크(Data Lake)
    • 수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템
    • 대용량의 정형, 비정형 데이터의 저장 및 접근도 쉽게 할 수 있는 대규모의 저장소
    • 하둡, 스파크와 같은 플랫폼으로 구성된 솔루션 제공

3. 빅데이터 분석 기술

가. Hadoop

나. Aparch Spark

다. Smart Factory

라. Machine Learning & Deep Learning

4. 기타

가. 데이터양의 단위

나. B2B, B2C

1. B2B: 기업과 기업 사이의 거래를 기반으로 한 비즈니스 모델
2. B2C: 기업과 고객 사이의 거래를 기반으로 한 비즈니스 모델

다. 블록체인

- 블록체인(Block Chain): 거래정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래장부
기존 금융회사는 중앙서버에 거래 기록을 보관하였다면, 블록체인은 거래에 참여한 모든 사용자에게 거래내역을 보여주며 거래때마다 이를 대조하여 데이터 위조 방지하는 방식

라. 데이터 유형

  • 정형데이터(RDBMS, CSV)
    형태가 있으며 연산 가능, 주로 관계형데이터베이스(RDBMS)에 저장
    데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬움
  • 반정형데이터(XML, HTML, JSON, 로그데이터)
    형태(스키마, 메타데이터)가 있으며 파일로 저장됨
    데이터 수집 난이도가 중간, 보통 API 형태로 제공됨
  • 비정형데이터(소셜데이터, 영상, 이미지, 음성, 텍스트 등)
    형태가 없으며 연산 불가, 주로 NoSQL에 저장
    데이터 수집 난이도가 높고, 텍스트마이닝/파일일 경우 파일을 데이터 형태로 파싱해야 하므로 수집 데이터 처리가 힘들다.
profile
데이터사이언티스트(NLP)

0개의 댓글