Spark 성능 튜닝

설계방안 Scala vs Java vs Python vs R Spark의 구조적 API는 속도와 안정성 측면에서 여러 언어를 일관성 있게 다룰 수 있다. 때문에 개발자에게 익숙한 언어나 상황에 따라 가장 적합한 언어를 사용하면 된다. 하지만 구조적 API로 처리할 수

2022년 5월 1일
·
0개의 댓글

Spark Join Strategy

Sort Merge Join은 먼저 동일한 워커 노드로 데이터를 shuffling한 다음 join key를 기반으로 데이터를 정렬 후 데이터를 병합하는 방식이다.spark 2.3 부터 기본 join strategy로 사용된다.join key가 정렬이 가능해야 한다.Sh

2022년 4월 30일
·
0개의 댓글

스쿱(Sqoop)

회사의 주요 데이터는 대부분 RDBMS에 저장되어 있다. 스쿱(Sqoop)은 RDBMS에서 HDFS로 데이터를 보내는 작업과 HDFS에서 RDBMS로 데이터를 보내는 작업을 쉽게 처리해주는 오픈소스 도구이다. 스쿱은 내부적으로 RDBMS의 테이블에서 행을 추출하는 맵

2022년 4월 29일
·
0개의 댓글

대규모 서비스 기반 지식

대규모 서비스에 대해 공부하면서 흩어져 있던 지식들을 정리하려고 함CPU 부하일 경우 같은 구성의 서버를 느리고 로드밸런서로 분산웹 계층을 수평적으로 확장하기 위해서는 무상태(stateless) 이어야 함사용자 세션 데이터와 같은 정보가 웹 계층에 저장되는 경우 수평적

2022년 3월 20일
·
0개의 댓글

하둡 분산 파일시스템(HDFS)

데이터가 단일 물리 머신의 저장 용량을 초과하게 되면 전체 데이터셋을 분리된 여러 머신에 나눠서 저장해야 함네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일시스템을 분산 파일시스템 이라고 함분산 파일시스템의 목표는 특정 노드에 장애가 발생해도 자료가 유실되지 않는

2022년 3월 19일
·
1개의 댓글

[데이터 중심 애플리케이션 설계] 4장

📖 오늘 읽은 범위 4장. 부호화와 발전 💡 책에서 기억하고 싶은 내용을 써보세요. 만물은 변한다. 그대로 있는 것은 아무것도 없다. 대부분 애플리케이션 기능을 변경하려면 저장하는 데이터도 변경 해야 함 데이터 타입이나 스키마가 변경될 때 애플리케이션 코드에

2022년 3월 16일
·
0개의 댓글

Change Data Capture(CDC)

DBMS의 변경 데이터를 사용해 후속처리를 취할 수 있도록 데이터를 추적하기 위해 사용되는 소프트웨어 디자인 패턴들의 집합timestamp특징테이블 내 마지막 변경 시점을 기록하는 timestamp(update date) 컬럼 존재더 최근의 timestamp 값을 갖는

2022년 3월 15일
·
0개의 댓글

[Elasticsearch] preference query parameter

상품 검색 시 동일한 상품 데이터에 대해 동일한 검색어로 여러번 검색 시 결과 정렬이 근소하게 바뀌는 현상이 발생했습니다. 정확히는 3개의 패턴으로 다른 검색 정렬 결과가 나타났습니다.지속적으로 검색 정렬이 바뀌는 이유는 elasticsearch에서는 데이터를 조회할때

2022년 3월 15일
·
0개의 댓글

스트림 프로세싱(Stream Processing) 개요

스트림 프로세싱은 신규 데이터를 끊임없이 처리해 결과를 만들어내는 행위웹사이트 클릭로그, IoT 센서 데이터와 같이 시작과 끝이 없는 Unbounded 데이터를 입력으로 받아 다양한 쿼리 연산을 수행대부분의 배치 애플리케이션은 직관적이고 유지보수와 개발이 단순하고 스트

2022년 3월 15일
·
0개의 댓글

[데이터 중심 애플리케이션 설계] 3장

📖 오늘 읽은 범위 3장. 저장소와 검색 💡 책에서 기억하고 싶은 내용을 써보세요. 데이터베이스를 강력하게 만드는 데이터 구조 키-값 저장소를 dbset, dbget 두개의 함수로 구현 db_set key value 호출 시 데이터베이스에 key, val

2022년 3월 14일
·
0개의 댓글

[데이터 중심 애플리케이션 설계] 2장

📖 오늘 읽은 범위 1장. p.11 ~ p.22 💡 책에서 기억하고 싶은 내용을 써보세요. 오늘날 다수의 애플리케이션은 계산중심(compute-intensive)과는 다르게 데이터 중심(data-intensive)적이다. (p.3) CPU 성능보다 더 큰 문제

2022년 3월 11일
·
0개의 댓글

Spark를 이용한 데이터 병렬 분산 처리

본 내용은 Fast Campus의 올인원 패키지: 실시간 빅데이터 처리를 위한 Spark & Flink Online 강의를 듣고 정리한 내용입니다.데이터를 여러개로 쪼갬여러 쓰레드에서 각자 task를 적용최종적으로 각각의 쓰레드에서 만든 결과값을 합침데이터를 여러개로

2022년 3월 10일
·
0개의 댓글

[데이터 중심 애플리케이션 설계] 1장

1장. ~ p.10오늘날 다수의 애플리케이션은 계산중심(compute-intensive)과는 다르게 데이터 중심(data-intensive)적이다. (p.3)CPU 성능보다 더 큰 문제는 데이터의 양, 복잡도, 변화 속도다. (p.3)애플리케이션마다 요구사항이 다르기

2022년 3월 7일
·
0개의 댓글

Apache Spark란?

1. Spark의 등장 배경 기존 빅데이터 처리 시스템은 하둡 에코시스템(Hadoop Ecosystem) 이 시장을 지배 하둡은 다수의 서버를 클러스터화 하여 빅데이터를 클러스터에서 분산 저장 및 병렬 처리하여 처리 속도를 높여줌 하지만 하둡의 MapReduce는 Di

2022년 1월 27일
·
0개의 댓글