파편화된 데이터 수집 및 분배 아키텍처가 필요함.예를 들어서 데이터를 생성/수집하는 아키텍처는 다음과 같을 것 생성하는 소스 어플리케이션소비하는 어플리케이션생성 어플리케이션 - 소비 어플리케이션하지만 이건 단방향임.여기서 만약에 파이프라인이 늘어나거나 하면 굉장히 복잡
데이터를 보관하는 중간 프로세서이다.하나의 물리 장비, 서버, 인스턴스에서 동작된다. k8s환경이라면 인스턴스프로듀서가 브로커로 데이터를 보내고, 컨슈머가 데이터를 브로커에서 읽는다.파일시스템 기반으로 데이터를 저장하기때문에 장애가 발생해도 데이터가 유실되지 않는다.거
토픽 : 카프카에서 데이터를 구분하기 위해서 사용되는 단위. 하나의 토픽에는 적어도 한개의 파티션이 있다.파티션 : 토픽이 갖고 있는 큐들을 의미한다. 파티션에는 프로듀서가 보낸 데이터(로그, 메시지, 레코드)들이 저장된다. 일반적인 큐와 다른 점은 읽는다고 deque
카프카 파티션으로 enqueue되는 데이터를 레코드라고 하는데, 이 레코드는 다음과 같은 특성이 있다. 브로커에 저장되면서 결정되는 값, 프로듀서가 직접 설정하는 값으로 나뉜다. 브로커에 저장되고 나서는 값의 수정이 불가능하다. 로그 리텐션 기간, 용량에 따라서 삭
분산 시스템에서는 클러스터를 중심으로 하위 노드들이 집결되어 있다.카프카, 쿠버네티스 환경이 그러하다.보통 클러스터에 여러 노드들이 있는 경우 노드들을 관리하기 위해서 다음의 작업이 필요하다.노드들의 헬스체크 \- 노드가 다운됬을 경우 데이터를 보내거나, 받거나,
카프카의 토픽으로 메시지를 보내는 역할을 맡는 어플리케이션파티셔닝이라는 개념이 있는데, 파티셔너는 메시지의 키값을 보고 파티셔닝을 진행한다.쉽게 말해서 키값을 기준으로 해싱을 진행하고 그 해싱값에 따라서 특정 파티셔닝으로 보낸다.따라서 특정 메시지를 특정 파티션에 보내
프로듀서가 메시지를 생산해서 카프카의 토픽으로 메시지를 보내면 그 토픽의 메시지를 가져와서 소비하는 역할을 하는 애플리케이션, 서버 등을 지칭하여 컨슈머라고 한다.컨슈머에는 두 종류가 있는데, 올드 컨슈머 / 뉴 컨슈머이다.올드 컨슈머는 컨슈머의 오프셋을 주키퍼의 지노