Learning Spark chapter 2. 아파치 스파크 다운로드 및 시작 3단계: 스파크 애플리케이션 개념의 이해 중요 용어 정리 애플리케이션: API를 써서 스파크 위에서 돌아가는 사용자 프로그램. 드라이버 프로그램과 클러스터의 실행기로 이루어진다. SparkSession: 스파크 코어 기능들을 사용할 수 있는 시작점을 제공, API로 프로그래밍을 할 수 있게 하는 객체이다. 스파크 셸에서 스파크 드라이버는 기본적으로 SparkSession를 제공하며, 애플리케이션에서는 사용자가 직접 SparkSession를 생성해서 사용해야 한다. 잡(job): 스파크 액션에 대한 응답으로 생성되는 여러 태스크들의 병렬 연산 스테이지(stage): 각각의 job들은 스테이지라고 불리는 서로 의존성을 가지는 다수의 태스크 모음으로 나뉜다. 태스크(task): 스파크 이그제큐터로 보내지는 작업 실행의 가장 기본적인 단위 트랜스포메이션, 액
빅데이터 분산처리 플랫폼 Apache Spark는 오픈소스이며, 범용적인 목적을 지닌 분산 클러스터 컴퓨팅 프레임워크으로 Fault Tolerance & Data Parallelism을 가지고 클러스터들을 프로그래밍할 수 있게 도와준다. Apache Spark에서는 RDD, Data Frame, Data Set의 3가지 API를 제공하는데, 이러한 데이터를 바탕으로 In-memory 연산을 가능하도록 하여 디스크 기반의 Hadoop에 비해 성능을 약 100배 정도 끌어올렸다. 기존에는 정형 데이터를 RDBMS를 사용하여 큐잉, 샤딩(Hash를 사용한 DB 분산 등의 방법으로 처리하였는데, 데이터가 급격하게 증대함에 따라 사진, 동영상 등을 포함하여 N TB/s 이상의 대용량의 다양한 데이터를 고속으로 처리해야 되는 환경에 직면하였다. 이를 효율적으로 처리하기위해 등장한 것이 "빅데이터 분산처리 플랫폼"이다. 빅데이터 처리 종류 초고속 병렬 처리