시리즈 | 실시간 빅데이터 처리를 위한 Spark & Flink Online

1.실시간 빅데이터 처리를 위한 Spark & Flink Online 1) 데이터 엔지니어링과 Spark

클라우드 웨어하우스\-> 클라우드 환경으로 옮겨가는 중이며, Snowflake, Google Big Query 같은 솔루션을 사용Hadoop에서 Databricks, Presto 같은 다음 세대로 이동하는 추세실시간 빅데이터 처리 (Stream Processing) 에

2022년 3월 7일

2.실시간 빅데이터 처리를 위한 Spark & Flink Online 2) Spark 와 RDD

Resilient Distributed Dataset탄력적인 분산 데이터셋?1\. 데이터 추상화클러스터에 흩어진 파일들을 하나의 파일인것 처럼 사용이 가능하다2\. Resilient & Immutable(탄력적이며 불변하는 성질)Immutable이란RDD1이 변환을 거

2022년 3월 7일

3.실시간 빅데이터 처리를 위한 Spark & Flink Online 3) RDD 함수

데이터를 여러개로 쪼개고여러 쓰레드에서 각자 task를 적용각자 만든 결과값을 합치는 과정데이터를 여러개로 쪼개서 여러 노드로 보낸다여러 노드에서 각자 독립적으로 task를 적용각자 만든 결과값을 합치는 과정노드간 통신같이 신경써야될 것이 늘어남Spark를 이용하면 분

2022년 3월 7일

4.실시간 빅데이터 처리를 위한 Spark & Flink Online 4) Reduction Operations

주로 변형을 적용시키는 작업들map, flatMap, filter이번강의에서는 Action이 분산된 환경에서 작동하는 원리대부분의 Spark의 Action은 Reduction파일 저장, collect() 등과 같이 Reduction이 아닌 액션도 있다.요소들을 모아서

2022년 3월 8일

5.실시간 빅데이터 처리를 위한 Spark & Flink Online 5) Key-Value RDD Operations & Joins

Key-Value RDD Transformations & Actions Transformations groupByKey reduceByKey mapValues keys join (+ leftOuterJoin, rightOuterJoin) Actions countByK

2022년 4월 6일

6.실시간 빅데이터 처리를 위한 Spark & Flink Online 6) Shuffling & Partitioning

그룹핑시 데이터를 한 노드에서 다른 노드로 옮길때성능을 (많이) 저하시킨다Join, leftOuterJoin, rightOuterJoinGroupByKeyReduceByKeyComebineByKeyDistinctIntersectionRepartitionCoalesce데

2022년 4월 12일

7.실시간 빅데이터 처리를 위한 Spark & Flink Online 7) 정형 vs 비정형 데이터

미국의 $2000불 이상의 주식만 가져오기가능한 방법은 몇가지일까?첫번째로 생각해볼 수 있는1\. Inner Join2\. Filter by Country3\. Filter by Currency퍼포먼스는 CASE 2가 더 좋다 -> shuffling을 최소화함매번 이런

2022년 4월 12일

8.실시간 빅데이터 처리를 위한 Spark & Flink Online 8) Spark SQL

스파크 프로그래밍 내부에서 관계형 처리를 하기 위해스키마의 정보를 이용해 자동으로 최적화를 하기 위해외부 데이터셋을 사용하기 쉽게하기 위해스파크 위에 구현된 하나의 패키지3개의 주요 APISQLDataFrameDatasets2개의 백엔드 컴포넌트Catalyst -쿼리

2022년 4월 12일

9.실시간 빅데이터 처리를 위한 Spark & Flink Online 9) DataFrame

DataFrame의 사용법DataFrame의 데이터 타입DataFrame에서 가능한 연산들DataFrame에서의 Aggregation 작업들한마디로 : 관계형 데이터셋 : RDD + RelationRDD가 함수형 API를 가졌다면 DataFrame은 선언형 API자동으

2022년 4월 15일