Volume - 규모
오늘날, 매 분마다 우리는 지구의 시작부터 2000년까지 만들어진 동일한 양의 데이터를 만든다.
현재는 TB,PB 시대이며 데이터의 양은 빅데이터로 분류하는 데 있어 확실히 중요한 측면이다.
Velocity - 속도
새로운 데이터가 생성되고 이동하는 속도에 관한 것.
대규모 처리 속도를 위한 다양한 어플리케이션이 받쳐줘야 한다.
최고의 속도를 가진 데이터는 메모리 안에 흘러가는 데이터 양과 디스크에서 읽어들이는 속도를 재빠르게 전송할 수 있다.
Batch, Leadtime, Stream 등등의 용어들이 있다.
Variety - 다양성
다양한 형태의 데이터를 분석 대상으로 한다.
(정형 비정형 반정형 데이터)
Veracity - 정확성
빅데이터의 정확성은 신뢰성을 나타낸다.
쉽게 말해, 데이터가 정확하고 품질이 좋은가에 대한 특성이다.
데이터 품질이나 정확도는 데이터 분석에 미치는 영향이 아주 크다.
Value - 가치
우리의 데이터를 가치로 바꿀 필요성을 뜻한다.
실제로, 통찰력을 제공하고 데이터 중심의 의사 결정을 유도하기 위한 데이터 전략을 수립하지 않은 조직은 경쟁업체에 뒤처지게 된다.
데이터 종류
정형 데이터
고정된 스키마 필드에 저장된 데이터
RDB, Spreadsheet, csv파일등등
반정형 데이터
고정된 필드에 저장되진 않지만 일정한 스키마를 보유한 데이터
xml, html, json파일 등등
비정형 데이터
텍스트 이미지 동영상 등등 말 그대로 고정된 형식이 없는 데이터
동영상, 이미지, 보이스 뿐만 아니라 트위터 유튜브 등등의 소셜데이터도 포함