1. Spark의 등장 배경 기존 빅데이터 처리 시스템은 하둡 에코시스템(Hadoop Ecosystem) 이 시장을 지배 하둡은 다수의 서버를 클러스터화 하여 빅데이터를 클러스터에서 분산 저장 및 병렬 처리하여 처리 속도를 높여줌 하지만 하둡의 MapReduce는 Di
본 내용은 Fast Campus의 올인원 패키지: 실시간 빅데이터 처리를 위한 Spark & Flink Online 강의를 듣고 정리한 내용입니다.데이터를 여러개로 쪼갬여러 쓰레드에서 각자 task를 적용최종적으로 각각의 쓰레드에서 만든 결과값을 합침데이터를 여러개로
Sort Merge Join은 먼저 동일한 워커 노드로 데이터를 shuffling한 다음 join key를 기반으로 데이터를 정렬 후 데이터를 병합하는 방식이다.spark 2.3 부터 기본 join strategy로 사용된다.join key가 정렬이 가능해야 한다.Sh
설계방안 Scala vs Java vs Python vs R Spark의 구조적 API는 속도와 안정성 측면에서 여러 언어를 일관성 있게 다룰 수 있다. 때문에 개발자에게 익숙한 언어나 상황에 따라 가장 적합한 언어를 사용하면 된다. 하지만 구조적 API로 처리할 수