[이론] 정형 데이터, 비정형 데이터, 반정형 데이터

조민수·2024년 9월 4일
0

개발 이론

목록 보기
6/8

오랜만에 이론 공부를 좀 했다.
아무래도 SQLD 시험도 쳤고, 데이터 처리 쪽에 관심을 가져야겠다는 생각으로...

이번엔 데이터를 나누는 가장 큰 기준 중 하나인
정형 데이터비정형 데이터, 반정형 데이터에 대해 얘기하고자 한다.


데이터?

먼저 데이터란, 관찰, 실험, 분석 등의 작업에 대한 원천이다.
또한, 4차 산업 혁명이 도래하면서 디지털 데이터의 양은 급증해왔다.

여기서, 데이터는 형태에 따라 크게 정형 데이터 / 비정형 데이터 / 반정형 데이터로 구분할 수 있다.


1. 정형 데이터 (Structured Data)

쉽게 말해, 구조화된 데이터

  • 미리 정해 놓은 형식, 구조에 따라 저장되도록 구성해
    고정된 필드에 저장된 데이터
  • 지정된 행(ROW)과 열(COL)에 데이터가 구별되어 입력되어 있으며
    RDBMS의 테이블 형태로 저장
  • 명확한 구조와 스키마, 제약조건을 가진다.
  • 테이블을 보유하는 DB를 관계형 데이터베이스라 함
  • SQL을 통해 처리

결국 정형화, 구조화된 데이터이기 때문에 데이터에 대한 접근, 검색 등의 작업이 쉽고 값의 의미를 파악하기 쉽다.

이런 SQL을 처리하는 DBMS로는

  • MySQL
  • Oracle Database
  • MSSQL (SQL Server)
  • PostgreSQL
  • MariaDB

등이 있다.

또한 데이터베이스의 일종으로 볼 수 있는

  • Excel
  • Google Sheets

등 역시, 정형 데이터를 다룬다고 생각해야 한다.


2. 비정형 데이터 (Unstructured Data)

정의된 구조, 규칙이 없는 동영상, 오디오, 사진 등의 데이터
컴퓨터가 처리하기에 힘든 데이터라고 생각하자

  • 형태가 없고, 연산이 불가
  • 데이터 구조가 없어 질의 처리를 할 수 없다.
  • 데이터의 특징을 추출해 반정형, 정형 데이터로 변환 과정(전처리)가 필요
  • 비관계형 데이터베이스 NoSQL 데이터베이스

비정형데이터는 현재 가장 많이 발생하고 있는 데이터로
빅데이터와 가장 밀접한 관련이 있다.
의미 분석이 힘든 원본 데이터를 분석하는 것이 빅데이터 처리의 핵심이기 때문.

비정형 데이터를 주로 다루는 시스템으로는

  • Elasticsearch
  • Hadoop
  • Cassandra

가 있으며, 주로 완전한 비정형 데이터(동영상, 이미지) 등은 별도의 시스템에서 저장 및 관리하는 것을 지향한다.


3. 반정형 데이터 (Semi-Structured Data)

어느 정도 구조를 가지고 있는 데이터
데이터의 형식과 구조가 변경될 수 있는 데이터이다.

  • JSON, XML, HTML 등의 파일 형태
  • JSON의 경우, key-value, graph DB가 포함된다.
  • 행, 열의 구조화는 가지지 않지만 스키마 및 메타데이터 특성을 가지고 있다.

반정형 데이터를 주로 다루는 NoSQL Database로는

  • MongoDB
  • Firebase(Firestore)

가 있으며, 주로 JSON스키마 형식을 처리하고 있다.


마치며...

결국 데이터란 다양한 형태로 존재하고, 어떻게 다뤄야하는지 인지하는 것부터가 개발자가 해야할 일이라 생각한다.

또한 빅데이터, AI 시대에 어떤 데이터를 어떻게 처리해야하는지를 빠르게 인지하는 것이 조금 더 수준 높은 개발자가 되는 하나의 기준이라고 생각한다.

[참고자료]

profile
사람을 좋아하는 Front-End 개발자

0개의 댓글