profile
개발자 지망생입니다.

[스터디]Java의 정석 24일차

두 작업을 처리하는 상황에서 싱글쓰레드의 경우 한 작업을 마친 후 다른 작업을 시작하지만, 멀티쓰레드는 2개의 쓰레드가 번갈아 가면서 작업을 수행하기 때문에 동시에 작업이 수행되는 것처럼 보인다.

약 6시간 전
·
0개의 댓글

[스터디] 스파크 완벽 가이드 10일차

스파크 SQL은 하이브 메타스토어를 사용하기 때문에 하이브와 잘 연동된다. 스파크 SQL은 하이브 메타스토어에 접속한 뒤 조회할 파일 수를 최소화하기 위해 메타데이터를 참조한다.

어제
·
0개의 댓글

[스터디]Java의 정석 23일차

자바를 개발한 사람들은 소스코드와 문서를 하나의 파일로 관리하는 것이 바람직하다고 생각했다. 소스코드의 주석에 소스코드에 대한 정보를 저장하고, 소스코드의 주석으로부터 HTML문서를 생성해내는 프로그램을 만들어서 사용했다.

어제
·
0개의 댓글

[스터디] 스파크 완벽 가이드 9일차

해당 장에서는 스파크의 여섯 가지 핵심 데이터소스를 중점적으로 소개한다. 핵심 데이터소스의 종류는 다음과 같다.CSV,JSON,파케이,ORC,JDBC/ODBC 연결,일반 텍스트 파일, ...

2일 전
·
0개의 댓글

[스터디]Java의 정석 22일차

지네릭스는 다양한 타입의 객체들을 다루는 메서드나 컬렉션 클래스에 컴파일 시의 타입체크를 해주는 기능이다. 컴파일시에 객체타입을 체크하기 때문에 타입 안정성을 높이고 형변환의 번거로움을 줄일 수 있다.

2일 전
·
0개의 댓글

[스터디]Java의 정석 21일차

Arrays.sort()와 같은 정렬 메소드는 컴퓨터가 배열을 정하는 것처럼 보였지만, 실제로는 Comparator와 Comparable 인터페이스 구현에 의해 정의되고 있었던 것이다.

3일 전
·
0개의 댓글

[스터디] 스파크 완벽 가이드 8일차

7장에서는 단일 데이터셋에서의 집계 방식만 알아보았다. 하지만 대부분의 경우 다양한 데이터셋을 활용하는 경우가 더 많기에 조인을 활용해 서로 다른 데이터를 조합하여 원하는 형태로 만드는 방법을 알아야 한다.

2022년 1월 19일
·
0개의 댓글

[스터디]Java의 정석 20일차

앞서 본 배열(ArrayList)는 구조가 간단한고 데이터를 읽어오는데 걸리는 시간(access time)이 빠르다는 장점을 가지고 있다. 하지만 배열의 크기를 변경하거나 순차적으로 데이터에 접근하지 않는 경우 시간이 오래걸린다는 단점이 존재한다.

2022년 1월 19일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 7일차

집계를 수행하려면 key나 group을 지정하고 하나 이상의 column을 변환하는 방법을 지정하는 집계 함수를 사용해야 한다. 이는 gorup by, window, grouping set, rollup, cube 등의 방법을 사용하여 구현할 수 있다.

2022년 1월 14일
·
0개의 댓글

[스터디]Java의 정석 19일차

Instant는 EPOCH TIME(1970-01-01 00:00:00 UTC)부터 경과된 시간을 나노초 단위로 표기한다. 단일 진법을 사용하기 때문에 연산에 유리하다는 장점을 가지고 있다. UTC를 기준으로 잡기 때문에 LocalTime과 차이가 있을 수 있다.

2022년 1월 14일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 6일차

스파크에서 데이터를 사용하기 위해 프로그래밍 언어의 고유 데이터 타입을 스파크 데이터 타입으로 변환히키기 위해서는 lit함수를 사용한다. lit함수는 다른 언어의 데이터 타입을 스파크 데이터 타입에 매핑시켜 변환한다.

2022년 1월 13일
·
0개의 댓글

[스터디]Java의 정석 18일차

날짜와 시간을 다루기 위해 JDK1.0부터 Date클래스, JDK1.1부터 Calendar클래스를 제공하였는데, 여러가지 불편한 점이 많았다.

2022년 1월 13일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 5일차

DataFrame은 Row타입의 레코드와 각 레코드에 수행할 연산 표현식을 나타내는 여러 컬럼으로 구성된다. DataFrame의 스키마는 각 컬럼명과 데이터 타입을 정의하고, 파티셔닝은 DataFrame이나 Datset이 클러스터에서 물리적으로 배치되는 형태를 정의한다

2022년 1월 12일
·
0개의 댓글

[스터디]Java의 정석 17일차

Math클래스는 수학 연산과 관련된 메소드로 구성되어 있다. Math클래스의 생성자는 접근 제어자가 private이라 다른 클래스에서 Math인스턴스를 생성할 수 없는데, 이는 Math클래스 내의 인스턴스 변수가 하나도 없어 인스턴스를 생성할 필요가 없기 때문이다.

2022년 1월 12일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 4일차

구조적 API에는 3가지 분산 컬렉션이 존재한다.DataSetDataFrameSQL 테이블과 뷰배치와 스트리밍처리에서 구조적 API를 사용할 수 있으며, 구조적 API를 활용해 배치 작업을 스트리밍 작업으로 변환할 수 있다.

2022년 1월 11일
·
0개의 댓글

[스터디]Java의 정석 16일차

Object클래스는 모든 클래스의 최고 조상이기 때문에 머돈 클래스에서 바로 사용할 수 있다. Object클래스에 존재하는 몇몇 메소드에 대해 살펴보자.

2022년 1월 11일
·
0개의 댓글

[스터디]Java의 정석 15일차

프로그램 오류란 프로그램 실행 중 오작동하거나 비정상적으로 종료되는 경우를 말한다. 에러의 종류에는 발생 시점으로 구분하는 컴파일 에러와 런타임 에러, 그 외에도 논리적 에러 등이 존재한다.

2022년 1월 10일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 3일차

(Ch3) 스파크 기능 둘러보기 본 챕터에서는 2장에서 다루지 않은 API와 스파크가 제공하는 여러 라이브러리, 기능을 소개한다.

2022년 1월 10일
·
0개의 댓글

[스터디]Java의 정석 14일차

내부 클래스는 말 그대로 클래스 내부에서 선언되는 클래스이다. 클래스 내부에 클래스를 선언하는 이유는 두 클래스가 밀접한 관계를 맺고 있기 때문이다.

2022년 1월 9일
·
0개의 댓글

[스터디]Java의 정석 13일차

추상 클래스란 미완성 메소드를 포함하고 있는 클래스를 의미한다. 메소드의 선언부만 정의하고 구현부가 없는 상태이기 때문에 무의미하다고 생각할 수 있지만 클래스 작성의 틀을 제공하는 역할을 수행한다.

2022년 1월 8일
·
0개의 댓글