링크드인 에서 고안된 시스템
아파치 카프카(Apache Kafka)는 분산 스트리밍 플랫폼이며 데이터 파이프 라인을 만들 때 주로 사용되는 오픈소스 솔루션

카프카 등장
카프카 중앙 배치함으로써 소스/타킷 애플리케이션 간 의존도 완화
기존 1:1 매칭 파이프라인의 의존도 타파
최소한의 네트워크 통신 횟수배치(묶음단위)로 처리파티션을 통한 데이터 병렬처리 -> 파티션 개수를 늘리면 데이터 처리량 증가
메모리에 저장하지 않고 파일 시스템에 저장파일 시스템은 보편적으로 느리지만 카프카는 페이지 캐시영역을 메모리에 따로 생성하여 사용하기 때문에 처리량이 높음*페이지캐시
한번 읽은 파일 내용은 메모리에 저장시켰다가 다시 사용하는 방식(OS에서 사용됨)
3개 이상의 서버들로 운영되는 카프카 클러스터는 일부 서버 장애가 발생하더라고 무중단으로 안전하고 지속적인 데이터 처리 가능데이터를 안전히 복제할 수 있는 옵션 제공