오랜만에 이론 공부를 좀 했다.
아무래도 SQLD 시험도 쳤고, 데이터 처리 쪽에 관심을 가져야겠다는 생각으로...
이번엔 데이터를 나누는 가장 큰 기준 중 하나인
정형 데이터와 비정형 데이터, 반정형 데이터에 대해 얘기하고자 한다.
먼저 데이터란, 관찰, 실험, 분석 등의 작업에 대한 원천이다.
또한, 4차 산업 혁명이 도래하면서 디지털 데이터의 양은 급증해왔다.
여기서, 데이터는 형태에 따라 크게 정형 데이터 / 비정형 데이터 / 반정형 데이터로 구분할 수 있다.
쉽게 말해, 구조화된 데이터
관계형 데이터베이스
라 함SQL
을 통해 처리결국 정형화, 구조화된 데이터이기 때문에 데이터에 대한 접근, 검색 등의 작업이 쉽고 값의 의미를 파악하기 쉽다.
이런 SQL을 처리하는 DBMS로는
등이 있다.
또한 데이터베이스의 일종으로 볼 수 있는
등 역시, 정형 데이터를 다룬다고 생각해야 한다.
정의된 구조, 규칙이 없는 동영상, 오디오, 사진 등의 데이터
컴퓨터가 처리하기에 힘든 데이터라고 생각하자
NoSQL
데이터베이스비정형데이터는 현재 가장 많이 발생하고 있는 데이터로
빅데이터와 가장 밀접한 관련이 있다.
의미 분석이 힘든 원본 데이터를 분석하는 것이 빅데이터 처리의 핵심이기 때문.
비정형 데이터를 주로 다루는 시스템으로는
가 있으며, 주로 완전한 비정형 데이터(동영상, 이미지) 등은 별도의 시스템에서 저장 및 관리하는 것을 지향한다.
어느 정도 구조를 가지고 있는 데이터
데이터의 형식과 구조가 변경될 수 있는 데이터이다.
JSON
, XML
, HTML
등의 파일 형태JSON
의 경우, key-value
, graph
DB가 포함된다.반정형 데이터를 주로 다루는 NoSQL Database
로는
가 있으며, 주로 JSON
스키마 형식을 처리하고 있다.
결국 데이터란 다양한 형태로 존재하고, 어떻게 다뤄야하는지 인지하는 것부터가 개발자가 해야할 일이라 생각한다.
또한 빅데이터, AI 시대에 어떤 데이터를 어떻게 처리해야하는지를 빠르게 인지하는 것이 조금 더 수준 높은 개발자가 되는 하나의 기준이라고 생각한다.
[참고자료]