profile
개발자 지망생입니다.
태그 목록
전체보기 (47)대학생(47)TIL(47)방학(47)개발자(46)공부(46)Java의 정석(31)Java(31)Spring(31)spark(16)Data Engineer(13)dataframe(5)데이터 엔지니어(5)Spark 완벽 가이드(5)스파크 완벽 가이드(3)dataset(3)rdd(2)자료구조(2)스파크 애플리케이션(2)스트림(2)Spark완벽가이드(2)저수준 API(2)익명 클래스(1)Chracter(1)클러스터(1)schema(1)ArrayList(1)네트워킹(1)Thread(1)stack(1)queue(1)그룹화(1)Spark완벽 가이드(1)함수형 인터페이스(1)Calendar클래스(1)Spark API(1)구조적 API(1)TreeMap(1)boolean(1)통합(1)경쟁 상태(1)브로드캐스트 변수(1)iterator(1)직렬화(1)(1)중간 연산(1)url(1)datatype(1)파케이(1)다형성(1)JOIN(1)복합 데이터 타입(1)지연 연산(1)annotation(1)어큐뮬레이터(1)linkedlist(1)partition(1)ip(1)tcp(1)스키마(1)IO(1)java.lang(1)지네릭스(1)String클래스(1)람다식(1)UDP(1)comparator(1)json(1)Spark 완벽가이드(1)collection framework(1)소켓(1)조인(1)인터페이스(1)추상클래스(1)최종 연산(1)odbc(1)데이터베이스(1)입출력(1)synchronized(1)테이블(1)예외처리(1)쓰레드 동기화(1)쓰레드 우선순위(1)집계 연산(1)MLlib(1)try-with-resources(1)Spark Application(1)HashSet(1)로우(1)HashMap(1)표준입출력(1)멀티쓰레드(1)ORC(1)쓰레드 그룹(1)udf(1)컬럼(1)구조적 스트리밍(1)컴퓨팅 엔진(1)날짜와 시간(1)Spark R(1)형식화클래스(1)collector(1)병렬 처리(1)언박싱(1)싱글쓰레드(1)try catch(1)기아 현상(1)Math클래스(1)제어자(1)오토박싱(1)Object클래스(1)csv(1)JDBC(1)스파크 SQL(1)NUMERIC(1)row(1)java.time(1)내부 클래스(1)TreeSet(1)열거형(1)collect(1)분산형 공유변수(1)데이터 소스(1)서브쿼리(1)Spark-submit(1)보조 스트림(1)

[스터디] 스파크 완벽 가이드 7일차

Chapter 7 집계 연산 집계를 수행하려면 key나 group을 지정하고 하나 이상의 column을 변환하는 방법을 지정하는 집계 함수를 사용해야 한다. 이는 gorup by, window, grouping set, rollup, cube 등의 방법을 사용하여 구현할 수 있다. 집계 함수에 따라 그룹화된 결과는 RelationalGroupedDataset을 반환한다. 집계 함수 - DataFrame > count 액션이 아닌 트랜스포메이션의 역할을 수행하며, 특정 컬럼을 지정하거나 count(*)을 사용하여 로우 수를 계산할 수 있다. > countDistinct 중복되지 않는 고유 레코드 수를 구해야 할때 사용. 개별 컬럼을 처리하는데 유용하다. > approxcountdistinct 정확한 수치가 아닌 어느 정도 수준 이상의 정확도를 가지를 근사치를 구할 때 사용. 대규모 데이터셋을 사용하여 연산할 때 유용하다.

2022년 1월 14일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 6일차

Chapter6 다양한 데이터 타입 다루기 스파크 데이터 타입으로 변환하기 스파크에서 데이터를 사용하기 위해 프로그래밍 언어의 고유 데이터 타입을 스파크 데이터 타입으로 변환히키기 위해서는 lit함수를 사용한다. lit함수는 다른 언어의 데이터 타입을 스파크 데이터 타입에 매핑시켜 변환한다. Boolean 데이터 타입 다루기 Boolean 구분의 종류로는 and, or, true, false 등이 있으며, Boolean 구문을 사용해 true 또는 false로 평가되는 논리문법을 만든다. and구문을 사용할 때 주의할 점은 내부적으로 필터 사이에 and구문을 추가해 모든 필터를 하나의 문장으로 변환하여 처리한다는 점을 기억해야 한다. or구문은 동일한 구문 사이의 양자택일을 하므로 동일한 구문에 조건의 정의해야 한다. 수치형 데이터 타입 다루기 수치형 데이터 타입은 연산 방식을 잘 정의하여 원하는 형태로 출력값을 나오도록 하는 것이 중요하다. 통

2022년 1월 13일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 5일차

Chapter5 구조적 API 기본 연산 DataFrame은 Row타입의 레코드와 각 레코드에 수행할 연산 표현식을 나타내는 여러 컬럼으로 구성된다. DataFrame의 스키마는 각 컬럼명과 데이터 타입을 정의하고, 파티셔닝은 DataFrame이나 Datset이 클러스터에서 물리적으로 배치되는 형태를 정의한다. 파티셔닝 스키마는 파티션을 배치하는 방법을 정의하며 파티셔닝의 분할 기준은 특정 컬럼이나 비결정론적 값을 기반으로 설정한다. 스키마(Schema) 스키마는 여러가의 StructField타입 필드로 구성된 StructType 객체이다. StructField는 이름, 데이터 타입, null값의 허용 여부를 지정할 수 있습니다. 컬럼과 표현식 스파크의 컬럼은 스프레드시트, R의 DataFrame, Pandas의 DataFrame 컬럼과 유사하다. 사용자는 표현식을 사용해 컬럼을 선택, 조작, 제거할 수 있다. 가장 간단하게 col,column함수를 사용해 컬

2022년 1월 12일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 4일차

Chapter4 구조적 API 구조적 API에는 3가지 분산 컬렉션이 존재한다. > DataSet DataFrame SQL 테이블과 뷰 배치와 스트리밍처리에서 구조적 API를 사용할 수 있으며, 구조적 API를 활용해 배치 작업을 스트리밍 작업으로 변환할 수 있다. DataFrame과 Dataset DataFrame과 Dataset의 정의는 잘 정의된 로우와 컬럼을 가지고 있는 분산 테이블 형태의 컬렉션이다. 결과를 생성하기 위해 어떤 데이터에 어떤 연산을 적용해야 하는지 정의하는 지연 연산의 실행계획이며, 불변성을 가진다. 스키마(Schema) 스키마는 DataFrame의 컬럼명과 데이터 타입을 정의한 것을 말한다. 데이터 소스에서 얻거나 직접 정의할 수 있으며, 여러 데이터 타입으로 구성되므로 어떤 데이터 타입이 어느 위치에 존재하는지 정의하는 방법이 필요하다. 스파크 구조적 데이터 타입 개요 스파크는 실행 계획 수립과 처리에 사용하는

2022년 1월 11일
·
0개의 댓글
·

[스터디] 스파크 완벽 가이드 2일차

Chapter 2 스파크 간단히 살펴보기 스파크의 기본 아키텍쳐 데이터를 처리하는 경우에는 단일 컴퓨터로 처리하기에 어려움이 있다. 그러기에 여러 컴퓨터의 자원을 모아서 하나의 컴퓨터처럼 작동하도록 하는 컴퓨터 클러스터를 구성한다. 이것만으로도 충분하지 않아 작업을 조율할 프레임워크가 필요한데 스파크가 이러한 역할을 수행한다. 스파크 내부의 클러스터 매니저는 애플리케이션 수행에 필요한 자원을 할당하여 작업을 처리한다. 스파크 애플리케이션 스파크 애플리케이션은 드라이버 프로세스와 익스큐터로 구성되어 있다. 드라이버 프로세스는 정보의 유지관리, 입력에 대한 응답, 작업의 분석, 배포, 스케줄링을 수행한다. 익스큐터는 드라이버프로세스로부터 작업을 할당받아 코드를 실행하고 실행 결과를 드라이버 노드에 보고하는 역할을 수행한다. 각 작업에 필요한 자원은 클래스터 매니저로부터 할당을 받는다. 스파크의 다양한 언어 API 스파크는 5가지 언어에 대해 작동한다.

2022년 1월 7일
·
1개의 댓글
·