Spark 성능 튜닝

설계방안 Scala vs Java vs Python vs R Spark의 구조적 API는 속도와 안정성 측면에서 여러 언어를 일관성 있게 다룰 수 있다. 때문에 개발자에게 익숙한 언어나 상황에 따라 가장 적합한 언어를 사용하면 된다. 하지만 구조적 API로 처리할 수

2022년 5월 1일
·
0개의 댓글
·

Spark Join Strategy

Sort Merge Join은 먼저 동일한 워커 노드로 데이터를 shuffling한 다음 join key를 기반으로 데이터를 정렬 후 데이터를 병합하는 방식이다.spark 2.3 부터 기본 join strategy로 사용된다.join key가 정렬이 가능해야 한다.Sh

2022년 4월 30일
·
0개의 댓글
·

Spark를 이용한 데이터 병렬 분산 처리

본 내용은 Fast Campus의 올인원 패키지: 실시간 빅데이터 처리를 위한 Spark & Flink Online 강의를 듣고 정리한 내용입니다.데이터를 여러개로 쪼갬여러 쓰레드에서 각자 task를 적용최종적으로 각각의 쓰레드에서 만든 결과값을 합침데이터를 여러개로

2022년 3월 10일
·
0개의 댓글
·

Apache Spark란?

1. Spark의 등장 배경 기존 빅데이터 처리 시스템은 하둡 에코시스템(Hadoop Ecosystem) 이 시장을 지배 하둡은 다수의 서버를 클러스터화 하여 빅데이터를 클러스터에서 분산 저장 및 병렬 처리하여 처리 속도를 높여줌 하지만 하둡의 MapReduce는 Di

2022년 1월 27일
·
0개의 댓글
·