CHAPTER 1. 아파치 스파크란

ack·2021년 6월 21일
0

Spark

목록 보기
1/6
post-thumbnail

CHAPTER 1. 아파치 스파크란

통합 컵퓨팅 엔진, 클러스터 환경에서 데이터를 병럴로 처리하는 라이브러리 집합

네가지언어(JAVA, Python, R, 스칼라) 지원

아파치 스파크의 철학

  • 빅데이터 애플리케이션 개발에 필요한 통합 플랫폼 제공
    • SQL 처리, 머신러닝, 스트림처리등 다양한 데이터 분석 작업을 같은 연산엔진+일관성 있는 API로 수행
  • 저장소 시스템의 데이터를 연산하는 역할만 수행 (영구 저장소의 역할X)
    • 아파치 하둡, 아마존 S3, 카산드라, 카프카 등의 저장소 지원
    • 데이터 저장 위치에 상관없이 처리에 집중
  • 데이터 분석 작업에 필요한 통합 API 제공하는 통합 엔진 기반의 자체 라이브러리
    • 스파크 SQL
    • MLlib
    • 스파크 스트리밍 구조적 스트리밍
    • GraphX 라이브러리
    • 저장소 시스템을 위한 커넥터

스파크의 등장배경

  • 하드웨어의 성능 향상이 멈추고 애플리케이션의 성능 향상을 위한 병렬 치리가 요구됨.
  • 데이터 수집 비용의 감소 + 데이터의 거대화 -> 새로운 프로그래밍 모델이 필요
참고 스파크 완벽 가이드 (Spark The Definitive Guide)
profile
아자 (*•̀ᴗ•́*)و

0개의 댓글