데이터의 종류
정형 데이터(Structured data)
- 정형 데이터는 데이터베이스의 정해진 규칙에 맞게 데이터를 들어간 데이터 중에 수치만으로 의미 파악이 쉬운 데이터들을 말합니다.
- 예를 들어, Gender라는 컬럼이 있는데, 여기서 male, female이라는 값이 들어간다면 누가 봐도 그 값은 남자, 여자라는 것을 쉽게 인식할 수 있습니다.
- 정형 데이터를 데이터베이스에 들어간 데이터라고 말하는 오류를 범할 수 있는데 데이터베이스에는 모든 데이터가 들어갈 수 있는 것(음성, 비디오)이기에 이런 정의는 틀렸다고 볼 수 있습니다.
- 즉, 정형 데이터는 그 값이 의미를 파악하기 쉽고, 규칙적인 값으로 데이터가 들어갈 경우 정형 데이터라고 인식하면 될 것입니다.
비정형 데이터(Unstructured data)
- 비정형 데이터는 정형 데이터와 반대되는 단어입니다. 즉, 정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 경우입니다.
- 흔히, 텍스트, 음성, 영상과 같은 데이터가 비정형 데이터 범위에 속해 있습니다.
- 3V에 Velocity(속도), Volume(양), Variety가 있는 것처럼 비정형 데이터는 Variety에 속하며 대용량의 정형 데이터도 얼마든지 많습니다.
반정형 데이터(Semi-structured data)
- 완전한 정형이 아니라 약한 정형 데이터라는 것입니다. 대표적으로 HTML이나 XML과 같은 포맷을 반정형 데이터의 범위에 넣을 수 있습니다.
- 일반적인 데이터 베이스는 아니지만 스키마를 가지고 있는 형태입니다. 예를 들면, XML, HTML, JSON, 로그 형태가 있습니다.
- 즉, 반정형 데이터는 데이터베이스 관리 시스템의 테이블과 같이 필드에 저장된 데이터는 아니지만, 스키마 및 메타데이터 특성을 가진 데이터라고 볼 수 있습니다. 더불어 파일 형식으로 저장이 됩니다.