# 방학

35개의 포스트

[스터디] 스파크 완벽 가이드 8일차

7장에서는 단일 데이터셋에서의 집계 방식만 알아보았다. 하지만 대부분의 경우 다양한 데이터셋을 활용하는 경우가 더 많기에 조인을 활용해 서로 다른 데이터를 조합하여 원하는 형태로 만드는 방법을 알아야 한다.

3일 전
·
0개의 댓글

[스터디]Java의 정석 20일차

앞서 본 배열(ArrayList)는 구조가 간단한고 데이터를 읽어오는데 걸리는 시간(access time)이 빠르다는 장점을 가지고 있다. 하지만 배열의 크기를 변경하거나 순차적으로 데이터에 접근하지 않는 경우 시간이 오래걸린다는 단점이 존재한다.

3일 전
·
0개의 댓글

[스터디] 스파크 완벽 가이드 7일차

집계를 수행하려면 key나 group을 지정하고 하나 이상의 column을 변환하는 방법을 지정하는 집계 함수를 사용해야 한다. 이는 gorup by, window, grouping set, rollup, cube 등의 방법을 사용하여 구현할 수 있다.

2022년 1월 14일
·
0개의 댓글

[스터디]Java의 정석 19일차

Instant는 EPOCH TIME(1970-01-01 00:00:00 UTC)부터 경과된 시간을 나노초 단위로 표기한다. 단일 진법을 사용하기 때문에 연산에 유리하다는 장점을 가지고 있다. UTC를 기준으로 잡기 때문에 LocalTime과 차이가 있을 수 있다.

2022년 1월 14일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 6일차

스파크에서 데이터를 사용하기 위해 프로그래밍 언어의 고유 데이터 타입을 스파크 데이터 타입으로 변환히키기 위해서는 lit함수를 사용한다. lit함수는 다른 언어의 데이터 타입을 스파크 데이터 타입에 매핑시켜 변환한다.

2022년 1월 13일
·
0개의 댓글

[스터디]Java의 정석 18일차

날짜와 시간을 다루기 위해 JDK1.0부터 Date클래스, JDK1.1부터 Calendar클래스를 제공하였는데, 여러가지 불편한 점이 많았다.

2022년 1월 13일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 5일차

DataFrame은 Row타입의 레코드와 각 레코드에 수행할 연산 표현식을 나타내는 여러 컬럼으로 구성된다. DataFrame의 스키마는 각 컬럼명과 데이터 타입을 정의하고, 파티셔닝은 DataFrame이나 Datset이 클러스터에서 물리적으로 배치되는 형태를 정의한다

2022년 1월 12일
·
0개의 댓글

[스터디]Java의 정석 17일차

Math클래스는 수학 연산과 관련된 메소드로 구성되어 있다. Math클래스의 생성자는 접근 제어자가 private이라 다른 클래스에서 Math인스턴스를 생성할 수 없는데, 이는 Math클래스 내의 인스턴스 변수가 하나도 없어 인스턴스를 생성할 필요가 없기 때문이다.

2022년 1월 12일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 4일차

구조적 API에는 3가지 분산 컬렉션이 존재한다.DataSetDataFrameSQL 테이블과 뷰배치와 스트리밍처리에서 구조적 API를 사용할 수 있으며, 구조적 API를 활용해 배치 작업을 스트리밍 작업으로 변환할 수 있다.

2022년 1월 11일
·
0개의 댓글

[스터디]Java의 정석 16일차

Object클래스는 모든 클래스의 최고 조상이기 때문에 머돈 클래스에서 바로 사용할 수 있다. Object클래스에 존재하는 몇몇 메소드에 대해 살펴보자.

2022년 1월 11일
·
0개의 댓글

[스터디]Java의 정석 15일차

프로그램 오류란 프로그램 실행 중 오작동하거나 비정상적으로 종료되는 경우를 말한다. 에러의 종류에는 발생 시점으로 구분하는 컴파일 에러와 런타임 에러, 그 외에도 논리적 에러 등이 존재한다.

2022년 1월 10일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 3일차

(Ch3) 스파크 기능 둘러보기 본 챕터에서는 2장에서 다루지 않은 API와 스파크가 제공하는 여러 라이브러리, 기능을 소개한다.

2022년 1월 10일
·
0개의 댓글

[스터디]Java의 정석 14일차

내부 클래스는 말 그대로 클래스 내부에서 선언되는 클래스이다. 클래스 내부에 클래스를 선언하는 이유는 두 클래스가 밀접한 관계를 맺고 있기 때문이다.

2022년 1월 9일
·
0개의 댓글

[스터디]Java의 정석 13일차

추상 클래스란 미완성 메소드를 포함하고 있는 클래스를 의미한다. 메소드의 선언부만 정의하고 구현부가 없는 상태이기 때문에 무의미하다고 생각할 수 있지만 클래스 작성의 틀을 제공하는 역할을 수행한다.

2022년 1월 8일
·
0개의 댓글

[스터디]Java의 정석 12일차

제어자는 클래스, 변수 또는 메소드의 선언부에 함께 사용되어 부가적인 의미를 부여한다. 제어자의 종류는 크게 접근 제어자와 그 외로 나눌 수 있다. 제어자는 여러가지를 조합할 수 있으나 접근 제어자의 경우에는 4가지 중 한가지만을 사용해야 한다.

2022년 1월 7일
·
1개의 댓글

[스터디] 스파크 완벽 가이드 2일차

데이터를 처리하는 경우에는 단일 컴퓨터로 처리하기에 어려움이 있다. 그러기에 여러 컴퓨터의 자원을 모아서 하나의 컴퓨터처럼 작동하도록 하는 컴퓨터 클러스터를 구성한다. 이것만으로도 충분하지 않아 작업을 조율할 프레임워크가 필요한데 스파크가 이러한 역할을 수행한다.

2022년 1월 7일
·
1개의 댓글

[스터디] 스파크 완벽 가이드 1일차

이 글은 "OREILLY의 스파크 완벽 가이드" 책을 공부하며 정리를 위해 남기는 글이다. 이 글은 전문적인 글이 아니다. 데이터 엔지니어를 목표로하며 나아가는 발자취를 남기는 것이며...

2022년 1월 6일
·
1개의 댓글

[스터디]Java의 정석 11일차

기존의 클래스를 재사용하여 새로운 클래스를 작성하는 방식을 말한다. 상속을 통해 중복되는 코드를 줄일 수 있으며 공통의 코드를 사용하기 때문에 관리가 용이하다.

2022년 1월 6일
·
1개의 댓글

[스터디]Java의 정석 10일차

생성자란 인스턴스가 호출될 때 동작하는 인스턴스 초기화 메소드이다. 주로 인스턴스 변수를 초기화할 때 사용하며, 인스턴스 생성시 수행해야 할 작업을 위해 사용하기도 한다.

2022년 1월 5일
·
1개의 댓글

[스터디]Java의 정석 9일차

JVM은 크게 3가지 영역으로 나뉜다. 클래스 데이터(ex. 클래스 변수)를 다루는 Method Area, 인스턴스가 생성되는 공간인 Heap, 메소드 작업에 필요한 메모리 공간을 제공하는 Call Stack/Execution Stack으로 구성된다.

2022년 1월 4일
·
1개의 댓글