- 데이터 적재 = 데이터를 수집해서 전처리를 수행하기 전 원천 데이터를 저장해놓은 상태
종류 | 설명 |
---|---|
플루언티드 Fluented | - 트레저 데이터 Treasure Data 에서 개발된 크로스 플랫폼 오픈 소스 데이터 수집 sw - 주로 루비 프로그래밍 언어로 작성 |
플럼 Flume | 많은 양의 로그데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트 Event 와 에이전트 Agent를 활용하는 분산형 로그 수집 기술 |
스크라이브 Scribe | 다수의 서버로부터 실시간으로 스트리밍되는 로그데이터 를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술 |
로그 스태시 Logstach | 모든 로그 정보를 수집하여 하나의 저장소(DB, Elasticsearch 등)에 출력해주는 시스템 |
- 데이터 저장 = 목적에 맞게 데이터 전처리 작업 후 활용할 수 있도록 저장해놓은 상태
구글 파일 시스템 GFS = Google File System
하둡 분산 파일 시스템 HDFS = Hadoop Distributed File System
러스터 Lustre
데이터 베이스 클러스터
NoSQL = Not Only SQL
Key-Value Store
종류 | 설명 |
---|---|
Redis | - REDIS = REmote Dictionary Server 는 메모리 기반의 Key-Value 구조의 데이터 베이스 - 모든 데이터를 메모리에 저장하고 조회 → 빠른 Read, Write 속도 보장 |
DynamoDB | AWS에서 개발한 Key-Value형 NoSQL DB로 원활한 확장성 + 빠른 성능 제공 |
Column Family Data Store
종류 | 설명 |
---|---|
HBase | - Hadoop 의 HDFS 위에 만들어진 분산 칼럼 기반의 DB - 구조화된 대용량의 데이터에 대한 실시간 읽기 및 쓰기 기능 제공 |
Cassandra | - 칼럼 기반의 분산형 NoSQL DB - 단일 장애점 없이 고성능의 기능 제공 - 대용량의 데이터 관리 및 여러 데이터 센터에 걸쳐 클러스터 지원이 가능 |
Document Store
종류 | 설명 |
---|---|
MongoDB | - NoSQL DB로 분류되고 크로스 플랫폼 도큐먼트 지향 데이터 베이스 - JSON 과 같은 동적 스키마형 도큐먼트들(MongoDB에서는 이러한 포맷을 BSON이라 부름)을 저장하는 DB |
CouchBase | - 고성능의 NoSQL DB로 JSON Document 를 저장하는 Document DB - 고정 DB 스키마의 제약 없이 쉽게 애플리케이션 수정 可 - 초고속 데이터 입출력 처리의 높은 성능 보장 |
Graph Store
종류 | 설명 |
---|---|
Neo4j | - Neo4j 사가 개발한 그래프 데이터베이스 - 네이티브 그래프 저장 및 처리 기능을 갖춘 ACID를 준수하는 트랜잭셔널 DB |
AllegroGraph | - 미국 Franz 사의 제품으로 대표적인 상용 시맨틱웹 데이터베이스 - 시맨틱 웹 애플리케이션 구축하기 위한 DB 뿐만이 아니라 어플리케이션 FW도 포함 |