2026.04.15(Wed)

오유찬·2026년 4월 24일

DE

목록 보기
9/16

Fundamentals of Data Engineering

데이터는 사실과 수치의 비조직적이고 맥락 없는 집합이다.

  • 아날로그와 디지털 형식이 있고
  • 다양한 곳에서 데이터가 수집된다.
  • → 원천 시스템 문서를 읽고 그 패턴과 특이점을 이해하자
  • → RDBMS를 사용한다면 그 시스템의 작동 방식을 익히고 영향을 줄 수 있는 요소들을 파악하자.

파일 : byte의 sequence → disk에 저장된다.

  • 로컬 매개변수, 이벤트, 로그, 이미지, 오디오 저장
    주로 보는 파일의 형식은 엑실, csv, txt, json, xml
  • 정형 : excel, csv
  • 반정형 : json, xml, csv
  • 비정형 : txt, csv
    + parquet, ORC 등

API(application programming interface)

시스템 간 데이터를 교환하는 표준 방식
#API

#OLTP

짧은 지연시간과 높은 동시성 지원

#ACID : 원자성, 일관성, 독립성, 내구성

일부 분산형 데이터베이스는 최종 일관성과 같은 완화된 일관성 제약 조건을 사용하기도 한다.

원자적 트랜잭션 : 트랜잭션이 진행됨에 있어서, 모든 트랜잭션이 성공하든가 모두 실패해야 한다.
→ 전체 작업이 트랜잭션으로서 발생해야 한다.

#OLAP
OLAP에서도 OLTP처럼 여러 쿼리문이 실행되면 리소스 경쟁이 일어난다.
하지만 OLTP는 같은 엔진/노드에서 경쟁이 일어나서 UX가 깨진다는 게 문제고, OLAP는 멀티 노드 MPP 구조로 느려지긴 해도 그렇게 큰 문제는 되지 않는다.

OLAP의 Online 부분은 시스템이 들어오는 쿼리를 지속해 수신 대기한다는 뜻으로 OLAP 시스템이 대화형 분석에 적합함을 의미한다.

그런데, 종종 원천 시스템이 아니라 DWH에서 다시 원천 시스템으로 데이터를 보내야 할 때가 있는데, 이때 역뱡향 ETL 워크플로를 OLAP 시스템이 제공할 수 있다.

#log : 최소한 누가, 무엇을, 언제 수행했는지 수집해야 한다.
인코딩 방법

  • 바이너리 인코딩 로그
  • 반정형 로그
  • 일반 텍스트 로그

로그 해상도 : log에 캡쳐된 이벤트 데이터의 양
다 저장하면 실용적이지 않으니까 → 특정 유형의 커밋 이벤트가 발생한 사실만 기록할 수 있다.

log level : 로그 엔트리를 기록하는 데 필요한 조건, 특히 에러와 디버깅에 관한 ==조건이다==

reference) Fundamentals of Data Engineering


현대 데이터 아키텍쳐

요구사항

  • 유연성과 확정성
  • 클라우드로 확장
  • 증가하는 데이터 처리 가능
  • 핵심 비즈니스 경로
    - 청구
  • 분산 도메인 통합
  • 데이터 거버넌스와 보안
profile
열심히 하면 재밌다

0개의 댓글