아파치 스파크 :
빅데이터를 위한 통합 컴퓨팅 엔진과 라이브러리 집합
스파크의 핵심 목표 : 빅데이터 애플리케이션 개발에 필요한 통합 플랫폼을 제공
스파크의 통합 특성 :
=> 대화형 분석과 운영용 애플리케이션에 필요한 플랫폼을 얻을 수 있음
통합이라는 관점 중시를 위해 기능의 범위를 컴퓨팅 엔진으로 제한
=> 저장소의 시스템 데이터를 연산하는 역할만 수행, 영구 저장소 역할 X
저장소 역할
데이터 이동은 높은 비용을 차지함 => 스파크는 데이터 저장 위치에 상관없이 처리에 집중하도록 만들어짐
데이터 분석 작업에 필요한 통합 API를 제공하는 통합 엔진 기반 자체 라이브러리
스파크 표준 라이브러리 : 여러 오픈 소스 프로젝트의 집합체
데이터 분석에 새로운 처리 엔진과 프로그래밍 모델이 필요한 이유? => 컴퓨터 애플리케이션과 하드웨어의 바탕을 이루는 경제적 요인의 변화
컴퓨터 프로세서의 성능 향상에 더 많은 연산과 대규모 데이터 처리를 맡겼음. 하지만 하드웨어 성능 향상은 물리적 방열 한계가 있어 하드웨어 개발자들은 단일 프로세서의 성능을 향상시키는 대신 병령 CPU 코어를 많이 추가하는 방향으로 선회 => 애플리케이션 성능 향상을 위해 병렬 처리가 필요하다는 것을 암시
데이터 수집에 필요한 기술 비용은 계속해서 저렴해지고 정밀도는 개선되어 수집 비용은 저렴해졌으나 데이터는 클러스터에서 처리해야 할 만큼 거대화
따라서 새로운 프로그래밍 모델이 필요해져 스파크가 탄생
맵 리듀스는 전통적인 머신러닝 알고리즘과 달리 단계별로 맵리듀스 잡을 개발하고 클러스터에서 각각 실행해야 하므로 매번 데이터를 처음부터 읽어야함
=> 이런 문제를 해결하기 위해 함수형 프로그래밍 기반의 API 설계, 연산 단계에서 메모리에 저장된 데이터를 효율적으로 공유할 수 있는 새로운 엔진 기반 API 구현
빅데이터 분석을 수행하는 기업의 핵심 기술이 될 것이라 예상
자바 설치 필수
파이썬으로 사용하려면 파이썬 버전 확인
출처 : 스파크 완벽 가이드
소중한 정보 감사드립니다!