데이터는 사실과 수치의 비조직적이고 맥락 없는 집합이다.
파일 : byte의 sequence → disk에 저장된다.
+ parquet, ORC 등시스템 간 데이터를 교환하는 표준 방식
#API
짧은 지연시간과 높은 동시성 지원
#ACID : 원자성, 일관성, 독립성, 내구성
일부 분산형 데이터베이스는 최종 일관성과 같은 완화된 일관성 제약 조건을 사용하기도 한다.
원자적 트랜잭션 : 트랜잭션이 진행됨에 있어서, 모든 트랜잭션이 성공하든가 모두 실패해야 한다.
→ 전체 작업이 트랜잭션으로서 발생해야 한다.
#OLAP
OLAP에서도 OLTP처럼 여러 쿼리문이 실행되면 리소스 경쟁이 일어난다.
하지만 OLTP는 같은 엔진/노드에서 경쟁이 일어나서 UX가 깨진다는 게 문제고, OLAP는 멀티 노드 MPP 구조로 느려지긴 해도 그렇게 큰 문제는 되지 않는다.
OLAP의 Online 부분은 시스템이 들어오는 쿼리를 지속해 수신 대기한다는 뜻으로 OLAP 시스템이 대화형 분석에 적합함을 의미한다.
그런데, 종종 원천 시스템이 아니라 DWH에서 다시 원천 시스템으로 데이터를 보내야 할 때가 있는데, 이때 역뱡향 ETL 워크플로를 OLAP 시스템이 제공할 수 있다.
#log : 최소한 누가, 무엇을, 언제 수행했는지 수집해야 한다.
인코딩 방법
로그 해상도 : log에 캡쳐된 이벤트 데이터의 양
다 저장하면 실용적이지 않으니까 → 특정 유형의 커밋 이벤트가 발생한 사실만 기록할 수 있다.
log level : 로그 엔트리를 기록하는 데 필요한 조건, 특히 에러와 디버깅에 관한 ==조건이다==
reference) Fundamentals of Data Engineering
요구사항