[Apache Spark] 주요 특징

Give Me A Job·2025년 8월 7일

Apache Spark란

대규모 분산 데이터 처리를 위한 통합형 엔진

1) 중간 결과를 메모리에 유지 -> 디스크IO 사용하는 엔진보다 속도 빠름
2) 쿼리 연산을 태스크 DAG로 재구성 => 클러스터의 워커 노드에서 병렬 수행
3) 텅스턴 엔진이 더 효율적인 코드로 변환 작업을 수행해줌

1) 추상화가 잘 되어 있어서 클라이언트 입장에서는 분산환경인지 아닌지 구분 불가
2) 고수준 추상화 계층(Dataframe, Dataset) 아래 단순한 자료구조(RDD) 구축하여 단순성 실현
3) 연산 = 트랜스포메이션+액션 집합
4) 다양한 PL 사용 가능

1) 다양한 컴포넌트를 통해 다양한 워크로드에 적용 가능 -> 다양한 워크로드간 연계 위한 추가 비용 적음

1) 수많은 데이터 소스로부터 데이터 로드 가능
2) 여러 파일 포맷과 호환 가능
3) 그 외 서드파드 패키지 호환 가능

살려조용...