[HADOOP] SPARK RDD

yozzum·2023년 10월 7일
0

Spark

목록 보기
5/21
  1. RDD(Resilient Distributed Dataset)
  • 스파크에서 사용하는 기본 데이터 구조
  • 스파크에서 내부적으로 연산하는 데이터들은 모두 RDD로 처리
  • 클러스터 내 다수의 머신에 분할되어 저장된 읽기 전용 컬렉션
  • 스파크 프로그램은 하나 이상의 RDD를 입력받고 일련의 변환 작업을 거쳐 목표 RDD 집합으로 변환된다. 이 과정에서 결과를 계산하거나 그 결과를 영구 저장소에 저장하는 액션이 수행된다.
  • 다수의 파티션으로 관리된다
  • 변경이 불가능한 데이터셋이다.
  • '탄력적인 분산 데이터셋'에서 '탄력적'이란 단어는 유실된 파티션이 있을 때 스파크가 RDD의 처리 과정을 다시 계산하여 자동으로 복구할 수 있다는 의미이다.
  1. 액션과 트랜스포메이션에서의 RDD
  • 트랜스포메이션은 기존RDD에서 새로운 RDD를 생성한다.
  • 액션은 특정 RDD를 계산하여 어떤 결과를 만들어낸다.
  • 연산의 결과 값이 RDD라면 해당 연산은 트랜스포메이션이다. filter(), map()
  • 연산의 결과 값이 RDD가 아니라면 해당 연산은 액션이다. count(), collect()
profile
yozzum

0개의 댓글