
Apache Spark는 대규모 데이터 처리를 위한 오픈 소스 분산 클러스터 컴퓨팅 프레임워크로 빠른 속도와 유연성을 제공하며, 대규모 데이터 집합을 효율적으로 처리하고 분석할 수 있다. 시스템의 전반적인 성능을 향상시키기 위해 계산 부하량을 여러 노드에 분담하여 처리

Apache Spark는 기본적으로 JAVA기반으로 구동 가능한 프레임워크이다.하지만 데이터 분석 작업의 경우 대부분 Python 또는 R언어로 업무를 수행하기 때문에 해당 언어 환경에서 Apache Spark를 사용할 수 있는 전용 인터페이스를 사용해야 한다.Pyth