빅데이터(Big Data)란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합을 의미합니다. 일반적으로 데이터의 크기(Volume), 속도(Velocity), 다양성(Variety)이라는 3V 특성으로 정의되며, 이후 정확성(Veracity)과 가치(Value)가 추가되어 5V로 확장되었습니다.
특성 | 설명 |
---|---|
크기(Volume) | 테라바이트(TB), 페타바이트(PB), 엑사바이트(EB) 이상의 대용량 데이터 |
속도(Velocity) | 실시간 또는 준실시간으로 생성, 처리, 분석되는 데이터의 속도 |
다양성(Variety) | 정형(Structured), 반정형(Semi-structured), 비정형(Unstructured) 데이터 등 다양한 형태 포함 |
정확성(Veracity) | 데이터의 신뢰성, 정확성, 품질에 대한 특성 |
가치(Value) | 데이터 분석을 통해 얻을 수 있는 가치와 통찰력 |
+-------------------+
| 시각화 계층 |
+-------------------+
| 분석 계층 |
+-------------------+
| 처리 계층 |
+-------------------+
| 저장 계층 |
+-------------------+
| 수집 계층 |
+-------------------+
| 데이터 소스 |
+-------------------+
데이터 수집 계층
데이터 저장 계층
데이터 처리 계층
분석 계층
시각화 계층
기술 | 설명 | 특징 |
---|---|---|
하둡(Hadoop) | 분산 처리 프레임워크 | HDFS와 맵리듀스를 포함한 오픈소스 에코시스템 |
스파크(Spark) | 인메모리 기반 분산 처리 | 하둡보다 100배 빠른 인메모리 처리, 실시간 분석 지원 |
스톰(Storm) | 실시간 스트림 처리 | 연속적인 데이터 흐름의 실시간 처리에 특화 |
플링크(Flink) | 스트림 및 배치 처리 | 스트림 처리와 배치 처리를 통합 지원 |
유형 | 설명 | 대표 제품 |
---|---|---|
키-값(Key-Value) 저장소 | 단순한 키-값 쌍 저장 | Redis, DynamoDB |
문서형(Document) DB | JSON, BSON 등 문서 저장 | MongoDB, Couchbase |
컬럼 지향(Column-oriented) DB | 열 기반 저장 방식 | HBase, Cassandra |
그래프(Graph) DB | 노드와 관계를 중심으로 저장 | Neo4j, JanusGraph |
산업 | 활용 사례 |
---|---|
금융 | 실시간 사기 탐지, 고객 신용 평가, 리스크 관리 |
의료 | 질병 예측, 개인 맞춤형 의료, 임상 시험 최적화 |
유통/물류 | 수요 예측, 재고 관리, 고객 행동 분석 |
제조 | 품질 관리, 예방 정비, 생산 최적화 |
공공 | 스마트시티, 재난 예측, 치안 서비스 |
용어 | 설명 |
---|---|
하둡(Hadoop) | 대용량 데이터를 분산 처리하기 위한 오픈소스 프레임워크 |
맵리듀스(MapReduce) | 대용량 데이터를 Map과 Reduce 두 단계로 나누어 병렬 처리하는 프로그래밍 모델 |
HDFS(Hadoop Distributed File System) | 하둡의 분산 파일 시스템으로 데이터를 여러 서버에 분산 저장 |
NoSQL(Not Only SQL) | 기존 관계형 데이터베이스가 아닌 비관계형, 분산, 수평확장 가능한 데이터베이스 시스템 |
데이터 레이크(Data Lake) | 원시 데이터를 원본 형태로 저장하는 대규모 저장소 |
데이터 웨어하우스(Data Warehouse) | 의사 결정 지원을 위해 구조화된 형태로 데이터를 저장하는 중앙 저장소 |
ETL(Extract, Transform, Load) | 데이터 추출, 변환, 적재 과정을 통합한 프로세스 |
데이터 마이닝(Data Mining) | 대량의 데이터에서 패턴을 발견하고 유용한 정보를 추출하는 과정 |
머신러닝(Machine Learning) | 데이터를 통해 컴퓨터가 학습하도록 하는 알고리즘과 기술 |
스마트 데이터(Smart Data) | 빅데이터에서 가치있는 정보만 추출하여 활용하기 쉽게 만든 데이터 |
빅데이터는 '엄청나게 많은 정보'를 말해요. 우리가 인터넷을 사용하거나, 스마트폰으로 게임을 하거나, 영상을 볼 때마다 많은 정보가 쌓여요. 이 많은 정보를 잘 모아서 분석하면, 어떤 게임이 인기 있는지, 어떤 영상이 사람들에게 좋을지, 심지어 내일 날씨가 어떨지까지 알 수 있어요. 빅데이터는 마치 거대한 퍼즐 조각을 맞추어 전체 그림을 보는 것과 같답니다!