[Spark] Apache Spark란?

seon·2025년 5월 26일

데이터분석

목록 보기
7/10
post-thumbnail

스파크(Spark)란?

스파크 구성 요소

SPARK CORE를 중점/기반으로 Spark Streaming, Spark SQL, MLLib, GraphX가 있다.

  • Spark Streaming: 실시간 인풋 데이터 분석
  • Spark SQL: SQL 쿼리 생성, Spark의 데이터셋에 집중
  • MLLib: 머신러닝, 데이터 마이닝 도구의 사용 가능케함
  • GraphX: 그래프 -> 데이터 추출

RDD

Spark에서 발생하는 모든 것의 추상화

  • 클러스터 전체에 걸쳐 작업이 고르게 분산되고 오류에 탄력적으로 대처할 수 있도록 함
  • 클러스터에서 자동으로 올바른 작업을 수행할 수 있는 객체의 키와 값 정보 또는 일반적인 정보를 저장하는 일종의 방법
  • 프로그래밍 관점에서 RDD는 단순 데이터셋임

Spark Context

드라이버 프로그램에서 만들어지는 것으로, spark shell이 있으며 SC라는 객체를 만들 수 있음

  • 드라이버 프로그램이 Spark 내에서 실행되는 일종의 환경
  • 이것이 RDD를 만듦

Reference

스파크의 등장 배경

스파크의 역사

스파크 실행하기

  • 파이썬, 자바, 스칼라, R 그리고 SQL 언어에서 사용할 수 있다.
  • 스파크는 스칼라로 구현되어 자바 가상 머신(JVM) 기반으로 동작한다.
  • 로컬환경에서 스파크 다운로드가 가능하다(다만 자바 설치되어 있어야)
  • 다운로드 링크: https://spark.apache.org/downloads.html
profile
🌻

0개의 댓글