시리즈

Apache Spark 파헤치기

1.Apache Spark란?

Apache Spark는 오픈 소스 분산 처리 시스템으로, 대규모 데이터를 빠르고 효율적으로 처리하기 위해 개발됨. Spark는 기본적으로 메모리 내에서 데이터를 처리하는 인메모리(In-Memory) 컴퓨팅을 지원하고 있다.

2025년 1월 11일

2.Spark vs. Hadoop

(아래 요약 있음)Hadoop (MapReduce): Hadoop의 데이터 처리 방식은 디스크 기반 처리입니다. Map 단계에서 데이터를 읽고, 처리 결과를 디스크에 저장한 다음 Reduce 단계에서 다시 읽는 방식입니다. 즉, 각 단계마다 데이터를 디스크에 저장하므로

2025년 1월 11일