# spark

168개의 포스트

[Spark] RDB 데이터 읽기/쓰기

https://stackoverflow.com/questions/57509625/how-to-create-table-in-mysql-database-using-apache-spark 검증 필요.

2022년 5월 10일
·
0개의 댓글

[Spark] MariaDB Connector syntax error 해결

※ Mysql Connector License 주의 https://stackoverflow.com/q/41518078https://mariadb.com/kb/en/sql-mode/

2022년 5월 2일
·
0개의 댓글

Spark 성능 튜닝

설계방안 Scala vs Java vs Python vs R Spark의 구조적 API는 속도와 안정성 측면에서 여러 언어를 일관성 있게 다룰 수 있다. 때문에 개발자에게 익숙한 언어나 상황에 따라 가장 적합한 언어를 사용하면 된다. 하지만 구조적 API로 처리할 수

2022년 5월 1일
·
0개의 댓글

Spark Join Strategy

Sort Merge Join은 먼저 동일한 워커 노드로 데이터를 shuffling한 다음 join key를 기반으로 데이터를 정렬 후 데이터를 병합하는 방식이다.spark 2.3 부터 기본 join strategy로 사용된다.join key가 정렬이 가능해야 한다.Sh

2022년 4월 30일
·
0개의 댓글
post-thumbnail

[spark] - 설치

다운로드 페이지(https://www.anaconda.com/products/distribution(pycharm을 사용해도 상관 없습니다.)다운로드 페이지로 이동하여 다운로드를 받아준다. jdk8 or jdk 11을 받아주세요!!다운을 받은 후 설치를 할 때

2022년 4월 28일
·
0개의 댓글
post-thumbnail

Spark cluster

하둡 클러스터링이 완료됬다는 전제하에 진행한다.https://velog.io/@kidae92/Hadoop-Cluster ~/.bashrc환경변수 적용$SPARK_HOME/conf/slaves$SPARK_HOME/conf에 가보면 slaves를 포함한 모든 파일

2022년 4월 28일
·
0개의 댓글
post-thumbnail

Spark Join Strategy

1\. Broadcast Join 모든 executor의 메모리에 복사하여 shuffle 없이 join하는 방식모든 executor와 driver의 memory에 충분한 공간이 있어야함.일반적으로 사이즈가 작은 master성 테이블(dimemsion 테이블)에 적용하나

2022년 4월 24일
·
0개의 댓글

[Spark] spark-shell 사용시 jar 의존성 추가

spark-shell 을 통해 간단한 테스트 진행시, external jar 파일들을 의존성에 추가한다.

2022년 4월 20일
·
0개의 댓글
post-thumbnail

Spark Basic Operations

Basic unit of calculation for Spark (It's like an API for controling Spark)a read-only, fault-tolerant partitioned collection of recordsLineage: User

2022년 4월 10일
·
0개의 댓글

[Spark]RDD

RDD에 대하여 알지 못한다면 Spark를 안다고 할 수 없다.그러니 이번 기회에 RDD에 대해서 자세히 정리해보자.RDD를 사용하기 이전엔 빅데이터 처리를 위하여 Hadoop의 MapReduce를 주로 사용하였다.MapReduce는 간단하게 Map과 Reduce 함수

2022년 4월 10일
·
0개의 댓글
post-thumbnail

Setting up EC2

SSH into the server Open VS Code Install Remove Development in the marketplace Create a config file press F1 → Configure SSH Hosts → Select the fil

2022년 4월 8일
·
0개의 댓글
post-thumbnail

Distributed Computing

A local process will use the computation resources of a single machine A distributed process has access to the computational resources across a number

2022년 4월 7일
·
0개의 댓글
post-thumbnail

빅데이터와 스파크

Big + data (큰) + 데이터빅데이터를 어떻게 하면 학문적으로 정의 할 수 있을까?스스로 정의 해보자!3V: Volume(규모), Variery(다양성), Velocity(속도)5V: 3v + Veracity(진실성), Value(가치)7V: Validity(정

2022년 4월 5일
·
0개의 댓글

[Spark] Spark 데이터프레임 주요 메서드 - (3) groupBy

spark Dataframe의 주요 메서드 - (3) groupBy

2022년 3월 30일
·
0개의 댓글
post-thumbnail

[논문리뷰]스파크를 이용한 머신러닝의 분산 처리 성능 요인(2021)

아파치 스파크를 이용하여 머신러닝을 분산 처리할 때의 성능 요인을 분석하고 효율적인 분산 처리를 위한 실행 환경을 제시. 고려해야 하는 성능 요인으로 🟠 클러스터의 성능, 🟢 데이터의 규모, 🔵스파크 엔진의 속성으로 구분. 그리고 하둡 클러스터에서 동작하는 스파

2022년 3월 29일
·
0개의 댓글

[Spark] Spark Streaming vs Structured Streaming

목적 : 이 내용을 참고해서 Spark Streaming을 해보려고 했는데, KafkaUtils는 현재 사용중인 spark 3.1.2 버전에서 지원하지 않았다. 알고보니 Spark Streaming에는 DStreams라는 기능과 DataFrmae과 연동할 수 있는 S

2022년 3월 29일
·
0개의 댓글
post-thumbnail

[논문리뷰]Efficient Large Scale NLP Feature Engineering with Apache Spark(2022)

다른 곳에서 자주 언급되는 여러 정보는 제외하고 논문에서 주장하는 바만 정리해서 적어봤음.Wikipedia의 corpus(자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합)의 텍스트 features를 추출하기 위한 Apache Spark의 SQL A

2022년 3월 28일
·
0개의 댓글

Spark User Defined Functions (UDFs)

Spark에서 dataframe을 가공할 때 기본적으로 제공되는 함수들로는 원하는 모양으로 가공하기 어려울 때가 있다. 이 때 사용자가 원하는 형태로 함수를 구현할 수 있는 것이 UDF(User Defined Functions) 이다. Spark UDF 란 > Us

2022년 3월 27일
·
0개의 댓글

spark: pushdownQuery

pushdownQuery client(spark 어플리케이션)에서 쿼리를 날리지만, 해당 쿼리를 원천 소스(database)에서 쿼리가 수행되도록 위임하는 것이다. 이렇게 하면 client에서는 필요한 데이터만 읽어올 수 있다. 다만, database에 부하가 생길 수

2022년 3월 25일
·
0개의 댓글

spark: partitioning

Partitioning s3에 데이터를 저장할 때 where 조건절에 자주 쓰이면서 유니크한 수가 많지 않은 칼럼을 기준으로 파티셔닝을 해서 저장할 수 있다. UNLOAD : saveAsTable : spark write : 이렇게 저장하면 S3경로를

2022년 3월 25일
·
0개의 댓글