[Kafka] 빅데이터 아키텍처 종류와 카프카

2sky·2023년 7월 7일

kafka

목록 보기
3/5
post-thumbnail

초기 빅데이터 플랫폼

  • 초기 빅데이터 플랫폼은 end-to-end
  • 유연하지 못하고 빠른 전달 불가
  • 히스토리 파악 어려움
  • 데이터의 가공으로 데이터가 파편화되면서 데이터 거버넌스를 지키기 어려움

람다 아키텍처

  • 배치 레이어 : 원하는 시간, 타이밍에 배치하여 일괄 처리
  • 서빙 레이어 : 가공된 데이터 저장 공간
  • 스피드 레이어 : 실시간으로 빠르게 분석(kafka 위치)
  • 배치와 처리가 분리되어 명확히 구분 가능하지만 배치 데이터와 실시간 데이터를 융합하여 처리할 때는 유연하지 못한 한계를 가짐

카파 아키텍처

  • 람다에서 배치 레이어를 제거함
  • 스피드 레이어에서 모든 데이터를 처리

배치 데이터와 스트림 데이터 비교

배치 데이터스트림 데이터
한정된 데이터 처리무한 데이터 처리
대규모 배치 데이터를 위한 분산 처리 수행지속적으로 들어오는 데이터를 위한 분산 처리 수행
분,시간,일 단위 처리를 위한 지연 발생분 단위 이하 지연 발생
복잡한 키 조인 수행/ 활용도가 높음단순한 키 조인 수행

스트림 데이터를 카프카에서 배치로 사용하는 방법

  • 스트림 데이터를 로그로 사용하는 방법은 로그에 시간을 남기는 것
  • 로그에 남겨진 시간을 기준으로 데이터를 처리하면 스트림으로 적재된 데이터도 배치로 처리 가능
  • 카프카는 로그에 시간을 남기기 때문에 이런 방식으로 처리가 가능

미래 - 스트리밍 데이터 레이크

  • 스피드 레이어로 사용되는 카프카에 분석과 프로세싱을 완료한 거대한 용량의 데이터를 오랜 기간 저장하고 사용할 수 있다면 서빙 레이어는 제거되어도 됨.
  • 서빙 레이어와 스피드 레이어가 이중으로 관리되는 운영 리소스를 줄일 수 있음.
  • 이를 위해 자주 사용하는 데이터와 자주 사용하지 않는 데이터를 분리를 개발 중
  • 자주 접근하지 않는 데이터를 대용량의 오브젝트 스토리지로 저장하면서 자원을 효율적으로 운영 및 관리

https://www.inflearn.com/course/%EC%95%84%ED%8C%8C%EC%B9%98-%EC%B9%B4%ED%94%84%EC%B9%B4-%EC%95%A0%ED%94%8C%EB%A6%AC%EC%BC%80%EC%9D%B4%EC%85%98-%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/dashboard
-강의 참고

profile
하늘하늘한 하늘

0개의 댓글