
왜 스파크일까?
Apache Spark : 대규모 데이터 처리를 위한 오픈 소스 분산 컴퓨팅 프레임워크
주요 특징:
속도 (Speed)
다중 언어 지원 (Multi-Language Support)
고급 분석 (Advanced Analytics)
SQL 쿼리: 분산 ANSI SQL 쿼리를 빠르게 실행하여 대시보드 및 애드혹 보고 지원
스트리밍 데이터: 실시간 데이터 스트리밍 처리 지원
머신 러닝 (MLlib): 내장된 머신 러닝 라이브러리를 통해 확장 가능한 머신 러닝 작업 수행
그래프 처리 (GraphX): 그래프 및 그래프 병렬 처리 기능 제공
확장성 (Scalability)
단일 노드에서부터 수천 대의 클러스터에 이르기까지 확장 가능한 분산 컴퓨팅 지원
클러스터 매니저로 YARN, Mesos, Kubernetes, Spark Standalone 사용 가능
유연성 (Flexibility)
역사
사용 사례
데이터 웨어하우징, ETL(Extract, Transform, Load) 작업, 실시간 데이터 스트리밍, 머신 러닝 모델 학습 및 배포, 데이터 과학 프로젝트 등에서 널리 사용
Apache Spark는 현재 많은 기업에서 대규모 데이터 분석과 처리에 사용되고 있으며, 80% 이상의 포춘 500 기업들이 이를 활용 중이다.
수정중..