profile
개발자 지망생입니다.
태그 목록
전체보기 (47)대학생(47)TIL(47)방학(47)개발자(46)공부(46)Java의 정석(31)Java(31)Spring(31)spark(16)Data Engineer(13)dataframe(5)데이터 엔지니어(5)Spark 완벽 가이드(5)스파크 완벽 가이드(3)dataset(3)rdd(2)자료구조(2)스파크 애플리케이션(2)스트림(2)Spark완벽가이드(2)저수준 API(2)익명 클래스(1)Chracter(1)클러스터(1)schema(1)ArrayList(1)네트워킹(1)Thread(1)stack(1)queue(1)그룹화(1)Spark완벽 가이드(1)함수형 인터페이스(1)Calendar클래스(1)Spark API(1)구조적 API(1)TreeMap(1)boolean(1)통합(1)경쟁 상태(1)브로드캐스트 변수(1)iterator(1)직렬화(1)(1)중간 연산(1)url(1)datatype(1)파케이(1)다형성(1)JOIN(1)복합 데이터 타입(1)지연 연산(1)annotation(1)어큐뮬레이터(1)linkedlist(1)partition(1)ip(1)tcp(1)스키마(1)IO(1)java.lang(1)지네릭스(1)String클래스(1)람다식(1)UDP(1)comparator(1)json(1)Spark 완벽가이드(1)collection framework(1)소켓(1)조인(1)인터페이스(1)추상클래스(1)최종 연산(1)odbc(1)데이터베이스(1)입출력(1)synchronized(1)테이블(1)예외처리(1)쓰레드 동기화(1)쓰레드 우선순위(1)집계 연산(1)MLlib(1)try-with-resources(1)Spark Application(1)HashSet(1)로우(1)HashMap(1)표준입출력(1)멀티쓰레드(1)ORC(1)쓰레드 그룹(1)udf(1)컬럼(1)구조적 스트리밍(1)컴퓨팅 엔진(1)날짜와 시간(1)Spark R(1)형식화클래스(1)collector(1)병렬 처리(1)언박싱(1)싱글쓰레드(1)try catch(1)기아 현상(1)Math클래스(1)제어자(1)오토박싱(1)Object클래스(1)csv(1)JDBC(1)스파크 SQL(1)NUMERIC(1)row(1)java.time(1)내부 클래스(1)TreeSet(1)열거형(1)collect(1)분산형 공유변수(1)데이터 소스(1)서브쿼리(1)Spark-submit(1)보조 스트림(1)

[스터디] 스파크 완벽 가이드 13일차

Chapter 13 RDD 고급개념 Key-Value 형태의 RDD RDD에는 key-value형태의 데이터를 다룰 수 있는 다양한 메서드가 존재한다. 이러한 메서드들은 ByKey 형태의 이름을 가지며 PairRDD타입만 사용할 수 있다. PairRDD타입을 만드는 가장 간단한 방법은 RDD에 Map연산을 수행해 key-value구조로 만드는 것이다. > keyBy() : 현재 값으로부터 키를 생성 mapValues() : (튜플 사용시)튜플의 첫 번째 요소를 key, 두 번째 요소를 value로 지정 collect() : key나 value 전체 추출 lookup() : 특정 key에 대한 결과 찾기 sampleByKey() : RDD를 한번만 처리하면서 무작위 샘플링을 사용하여 RDD 샘플 생성 집계 > countByKey() : 각 key의 아이템 수를 구하고 로컬 맵으로 결과를 수집 groupByKey() : 해당 키와 관련된 모든 값을 메모리

2022년 2월 2일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 12일차

Chapter 12 RDD 저수준 API란? 스파크에는 두 종류의 저수준 API가 있다. 분산 데이터 처리를 위한 RDD와 브로드캐스트 변수와 어큐뮬레이터처럼 분산형 공유 변수를 배포하고 다루기 위한 API가 있다. 저수준 API를 사용하는 상황은 다음과 같다. > 고수준 API에서 제공하지 않는 기능이 필요한 경우 RDD를 사용해 기존의 개발된 코드를 유지해야하는 경우 사용자가 정의한 공유 변수를 다뤄야 하는 경우 저수준 API는 SparkContext를 활용하여 진입한다. RDD란? 간단하게 RDD를 정의하면 불변성을 가지며 병렬로 처리할 수 있는 파티셔닝된 레코드의 모음이다. 물리적으로 분산된 데이터에 세부적인 제어가 필요한 경우 RDD를 사용하는 것이 가장 적합하다. DataFrame은 구조화된 로우인 반면, RDD는 프로그래머가 선택하는 자바, 스칼라, 파이썬의 객체이다. 특정 언어의 개체인 만큼 완벽하게 제어할 수 있고, 사용자가 원하

2022년 1월 31일
·
0개의 댓글
·