Structured vs Unstructured Data

Michael Kim·2022년 5월 16일
0

0. Intro

한 회사에서 면접을 보면서, 당황했던 질문 중 하나였다. 이전까지는 구조화된 데이터라 함은 구조가 잡힌 데이터인 줄 알고 넘어갔지만, 정확히 어떠한 의미로 구조화된 데이터인지 알지 못했다.

어떠한 format이 있으면 구조화된 것이 아닐까?? 이미지 형식은 어떤 쪽에 속할까? JSON, XML은? RDB는?

1. 구조화된 데이터

구조화된(Structured) 데이터는 다른 말로 정형 데이터라고도 한다. 이름 그대로 정해진 일정한 형식으로 구조화가 되어있는 데이터다. 전처리가 필요하며 종류로는 대표적으로 RDB가 있고, 그 외에도 엑셀, 스프레드 시트, csv가 있다. 주로 Data Warehouse에 저장된다.

장점

  1. 전처리 되어 있기 때문에 쉽게 쿼리를 사용하거나 연산이 가능하다. 그 때문에 머신 러닝 알고리즘에도 쉽게 사용할 수 있다.

  2. 구조화된 데이터는 오래전부터 사용된 만큼 많은 사람들이 사용하고 있으며, 다양한 툴에서도 지원이 된다.

단점

  1. 전처리 비용이 필요하다.

  2. 저장소가 바뀌면서 다른 형태로 구조화해야할 경우에도 많은 비용이 필요하다.

2. 비구조화된 데이터

비구조화된(Unstructured) 데이터는 비정형 데이터라고도 불린다. 정형 데이터와 반대로 구조화가 되지 않은 데이터를 뜻한다. 스키마가 없고 전처리가 필요없으며 쉽게 저장할 수 있다. 종류로는 이미지, 블로그 글, 동영상, 음성 파일 등이 있다. 주로 Data Lake에 저장된다.

장점

  1. 전처리가 필요없기 때문에 적은 비용으로 데이터를 쌓을 수 있다. 그만큼 쉽게 쌓을 수 있어서 빠르게 수집 가능하다.

  2. 포맷이 자유로운 만큼 저장소를 옮기기에도 용이하다.

단점

  1. 전처리되어 있지 않기 때문에, 해당 데이터를 사용하기 위해서 데이터를 해석하거나 분석할 수 있는 전문가가 필요하다.

  2. 특화된 툴에서만 사용이 가능하다. 정형 데이터 만큼 툴 간에 데이터 호환성이 좋지 않다.

3. 반구조화된 데이터

구조화된 데이터와 비구조화된 데이터 사이에 있는 데이터 종류로, 반정형 데이터라고 불린다. 정형 데이터와 다른 형태로 구조화가 되어 있다. 종류로는 JSON, XML, HTML 등이 있다.

정형 데이터와의 차이점은 스키마와 분리되어 있지 않고, Column(field)와 Value를 모두 표기되어 있다는 점이다.

profile
정리하고 복습하고 일기도 쓰고

0개의 댓글