클라우드 웨어하우스\-> 클라우드 환경으로 옮겨가는 중이며, Snowflake, Google Big Query 같은 솔루션을 사용Hadoop에서 Databricks, Presto 같은 다음 세대로 이동하는 추세실시간 빅데이터 처리 (Stream Processing) 에
Resilient Distributed Dataset탄력적인 분산 데이터셋?1\. 데이터 추상화클러스터에 흩어진 파일들을 하나의 파일인것 처럼 사용이 가능하다2\. Resilient & Immutable(탄력적이며 불변하는 성질)Immutable이란RDD1이 변환을 거
데이터를 여러개로 쪼개고여러 쓰레드에서 각자 task를 적용각자 만든 결과값을 합치는 과정데이터를 여러개로 쪼개서 여러 노드로 보낸다여러 노드에서 각자 독립적으로 task를 적용각자 만든 결과값을 합치는 과정노드간 통신같이 신경써야될 것이 늘어남Spark를 이용하면 분
주로 변형을 적용시키는 작업들map, flatMap, filter이번강의에서는 Action이 분산된 환경에서 작동하는 원리대부분의 Spark의 Action은 Reduction파일 저장, collect() 등과 같이 Reduction이 아닌 액션도 있다.요소들을 모아서
Key-Value RDD Transformations & Actions Transformations groupByKey reduceByKey mapValues keys join (+ leftOuterJoin, rightOuterJoin) Actions countByK
그룹핑시 데이터를 한 노드에서 다른 노드로 옮길때성능을 (많이) 저하시킨다Join, leftOuterJoin, rightOuterJoinGroupByKeyReduceByKeyComebineByKeyDistinctIntersectionRepartitionCoalesce데
미국의 $2000불 이상의 주식만 가져오기가능한 방법은 몇가지일까?첫번째로 생각해볼 수 있는1\. Inner Join2\. Filter by Country3\. Filter by Currency퍼포먼스는 CASE 2가 더 좋다 -> shuffling을 최소화함매번 이런
스파크 프로그래밍 내부에서 관계형 처리를 하기 위해스키마의 정보를 이용해 자동으로 최적화를 하기 위해외부 데이터셋을 사용하기 쉽게하기 위해스파크 위에 구현된 하나의 패키지3개의 주요 APISQLDataFrameDatasets2개의 백엔드 컴포넌트Catalyst -쿼리
DataFrame의 사용법DataFrame의 데이터 타입DataFrame에서 가능한 연산들DataFrame에서의 Aggregation 작업들한마디로 : 관계형 데이터셋 : RDD + RelationRDD가 함수형 API를 가졌다면 DataFrame은 선언형 API자동으
Spark Backend Catalyst와 Tungsten 두 백엔드로 최적화 된다 Two Engines of Spark 스파크는 쿼리를 돌리기 위해 두가지 엔진을 사용한다 Catalyst Tungsten Catalyst 한눈에 알아보기 SQL과 D
Spark Backend Catalyst와 Tungsten 두 백엔드로 최적화 된다 Two Engines of Spark 스파크는 쿼리를 돌리기 위해 두가지 엔진을 사용한다 Catalyst Tungsten Catalyst 한눈에 알아보기 SQL과 D
Spark Backend Catalyst와 Tungsten 두 백엔드로 최적화 된다 Two Engines of Spark 스파크는 쿼리를 돌리기 위해 두가지 엔진을 사용한다 Catalyst Tungsten Catalyst 한눈에 알아보기 SQL과 D
Spark Backend Catalyst와 Tungsten 두 백엔드로 최적화 된다 Two Engines of Spark 스파크는 쿼리를 돌리기 위해 두가지 엔진을 사용한다 Catalyst Tungsten Catalyst 한눈에 알아보기 SQL과 D
Spark Backend Catalyst와 Tungsten 두 백엔드로 최적화 된다 Two Engines of Spark 스파크는 쿼리를 돌리기 위해 두가지 엔진을 사용한다 Catalyst Tungsten Catalyst 한눈에 알아보기 SQL과 D
Spark Backend Catalyst와 Tungsten 두 백엔드로 최적화 된다 Two Engines of Spark 스파크는 쿼리를 돌리기 위해 두가지 엔진을 사용한다 Catalyst Tungsten Catalyst 한눈에 알아보기 SQL과 D