# spark

301개의 포스트
post-thumbnail

04. Spark Standalone

Apache Spark Standalone Cluster Manager

약 19시간 전
·
0개의 댓글
·
post-thumbnail

03. Install Hadoop (HDFS)

Install Hadoop & Configure HDFS

어제
·
0개의 댓글
·
post-thumbnail

02. Spark History Server

Spark History Server

어제
·
0개의 댓글
·
post-thumbnail

01. Install Apache Spark on EC2

Install Apache Spark on EC2

어제
·
0개의 댓글
·
post-thumbnail

00. Apache Spark Lab Setting

Spark Study Lab Setting

어제
·
0개의 댓글
·
post-thumbnail

[ Spark ] Learning Spark - chapter 2

github issue중요 용어 정리애플리케이션: API를 써서 스파크 위에서 돌아가는 사용자 프로그램. 드라이버 프로그램과 클러스터의 실행기로 이루어진다.SparkSession: 스파크 코어 기능들을 사용할 수 있는 시작점을 제공, API로 프로그래밍을 할 수 있게

어제
·
0개의 댓글
·

Spark SQL

기존의 RDD를 DF으로 transform이 가능broadcast: shuffle을 하지 않게 만드는 용도Spark shell web UI: http://spark-master-01:4040/ 의 SQL에서 실행 과정 확인 가능Spark SQL은 adaptiv

3일 전
·
0개의 댓글
·

RDD Map-Side Join

큰 테이블과 상대적으로 작은 테이블간 join할 때 사용Large table <=> Fact tableSmall table <=> Dimension tablescala 결과 창에서 table들이 rdd에 즉 executor에 있음을 알 수 있다. broadc

4일 전
·
0개의 댓글
·

Broadcast

broadcast 이전의 m과 broadcastVar은 동일repartition은 shuffle 용도로 stage를 다르게 만들기 위함master web UI: http://spark-master-01:8180/ Running Applications (1) -

4일 전
·
0개의 댓글
·

Whole File-Based RDDs

파일을 executor로 복사하기 위해서는 hdfs 상에 파일을 생성해야 함여기서는 local에서 실행spark는 파일을 line 단위로 읽는데, wholeTextFiles를 사용하면 파일 단위로 파일을 읽는다.print는 줄바꿈 없이, println은 줄바꿈을 하고

4일 전
·
0개의 댓글
·

RDD Persistence

편의성을 위해 setName 추가persist를 통해 disk로 cache아직까지 action을 실행하지 않은 상태 -> Spark shell web UI: http://spark-master-01:4040/ 의 storage에서는 아무것도 없음action 실

4일 전
·
0개의 댓글
·

Passing Functions to Spark

master를 따로 설정하지 않으면 local의 모든 core를 사용하도록 master가 설정 됨counter 변수는 driver 내부에 존재scala 문법중 s-str은 python의 f-str과 유사. 전체 str에서 $이후는 변수를 가지고 옴위의 counter는

5일 전
·
0개의 댓글
·

Pipelining and Stage Skip

1개의 thread에서 동작 local에서 동작하더라도 driver와 executor가 동시에 존재. map 함수는 executor 안에서 동작 map5부터는 shuffle되어 순서가 제대로 나오지 않음 동일한 코드를 반복하면 stage0(map1~map3)의

6일 전
·
0개의 댓글
·

Dynamic Allocation

static allocationexecutor의 최대 개수가 고정만약 다른 application이 executor를 사용하고 있어서 원하는 executor를 전부 사용하지 못한다면 사용 가능한 executor를 먼저 사용하고, application이 종료되어 exec

7일 전
·
0개의 댓글
·

History Server

spark application의 driver program이 종료되면 web ui는 더 이상 볼 수 없음. 이전 정보의 로그를 저장하여 화면에서 볼 수 있도록 하기 위함eventLog가 많아지면 memory에 문제가 발생하므로 적절히 삭제하거나 위치를 바꾼다.Hist

2023년 3월 23일
·
0개의 댓글
·
post-thumbnail

M1 맥에서 Hadoop, Spark 설치하기

스파크를 설치하기 위해서 우선 하둡이 설치되어있어야 합니다. 따라서 하둡 설치과정부터 정리해 두었습니다. 하둡 설치가 완료되면 스파크 설치과정을 따라가시면 됩니다. 1. Hadoop 설치하기 (1) JAVA 설치 확인 하둡 설치 전 자바(JAVA)가 설치되어 있는지

2023년 3월 22일
·
0개의 댓글
·

spark application 배포

spark-submit -> spark application 배포\--class org.apache.spark.examples.SparkPi -> class로 SparkPi 실행/skybluelee/spark3/examples/jars/spark-examples_2.1

2023년 3월 22일
·
0개의 댓글
·

spark standalone

각 포트 번호 등은에서 설정한 값이 그대로 나옴master web UI: http://spark-master-01:8188 로 변경master web UI의 Workers(1)에서 변화 확인

2023년 3월 22일
·
0개의 댓글
·

local, cluster 비교

2개의 core에서 작동하여 map에서 (1,2), (3,4,5)로 나누어 수행하였기 때문에 map의 결과는 순서대로 나오지 않을 수 있다이후 collect를 통해 array로 가져오므로 순서대로 출력됨SparkSubmit은 위의 local 환경임scala> val r

2023년 3월 22일
·
0개의 댓글
·

Spark 함수의 두 가지 분류 : action, transformation

spark 함수는 크게 action과 transformation 두 가지로 나누어진다.이를 이해하기 위해서는 lazy execution이라는 개념을 짚고 넘어가야 한다.연산/함수를 명령한 즉시 수행하는 것이 아니라, 기록만 해두고 쌓아두고 있다가 특정 유형의 연산/함수

2023년 3월 21일
·
0개의 댓글
·