[TIL] streaming-day 1~4

heering·2023년 7월 10일

데브코스 데이터엔지니어링

목록 보기

38/39

데이터 실시간 처리

Realtime	Semi-Realtime
짧은 Latency	합리적인 Latency
연속적인 데이터 스트림	배치와 유사한 처리(Micro-batch)
이벤트 중심 아키텍처 (수신 데이터 이벤트에 의해 작업이나 계산이 트리거되는 구조)	적시성과 효율성 사이의 균형 (처리 용량과 리소스의 활용도를 높이기 위해 일부 즉각성을 희생하기도 함)
동적 및 반응형 (데이터 스트림의 변화에 동적으로 대응하여 실시간 분석, 모니터링 및 의사 결정을 수행)	주기적인 업데이트

Kafka
실시간 데이터를 처리하기 위해 설계된 오픈소스 분산 스트리밍 플랫폼, 데이터 재생이 가능한 분산 커밋 로그 (Distributed Commit Log)
Scalability와 Fault Tolerance를 제공하는 Publish-Subscription (= Producer-Consumer) 메시징 시스템
High Throughput과 Low Latency 실시간 데이터 처리에 맞게 구현됨
Retention Period 동안 메시지를 저장
Kafka Broker
= Kafka Server, Kafka Node
Kafka Topic
- Consumer가 데이터(Message)를 읽는다고 없어지지 않음
- Consumer별로 어느 위치의 데이터를 읽고 있는지 위치 정보를 유지함
- Fault Tolerance를 위해 이 정보는 중복 저장됨
직렬화 vs 역직렬화
- 직렬화(Serialization): 데이터나 객체를 바이트로 변환한다는 의미. 객체의 상태를 저장하거나 전송할 수 있는 형태로 변환하는 프로세스. 보통 이 과정에서 데이터 압축 등을 수행. 가능하다면 데이터의 스키마 정보 추가
- 역직렬화(Deserialization): Serialized된 데이터를 다시 사용할 수 있는 형태로 변환하는 Deserialization. 이 과정에서 데이터 압축을 해제하거나 스키마 정보 등이 있다면 데이터 포맷 검증도 수행

kafka-console-consumer
커맨드라인을 통해 Topic에서 Message 읽기 가능.
--from-beginning 옵션이 있으면 처음부터 읽음(Earliest), 아니면 latest로 동작
ksqlDB
REST API나 ksql 클라이언트 툴을 사용해서 Topic을 테이블처럼 SQL로 조작
Consumer Group
- Consumer가 Topic을 읽기 시작하면 해당 Topic내 일부 Partition들이 자동으로 할당됨
- Consumer의 수 < Partion의 수인 경우: Partition은 라운드 로빈 방식으로 Consumer들에게 할당됨 (하나의 Partition은 하나의 Consumer에게만 할당되므로)
- 데이터 소비 병렬성 ↑, Backpressure ↓

Consumer/Producer 패턴
많은 경우 Consumer는 한 Topic의 메시지를 소비해서 새로운 Topic을 만들기도 함. 즉 Consumer이면서 Producer로 동작