# pyspark

14개의 포스트
post-thumbnail

Spark Join Strategy

1\. Broadcast Join 모든 executor의 메모리에 복사하여 shuffle 없이 join하는 방식모든 executor와 driver의 memory에 충분한 공간이 있어야함.일반적으로 사이즈가 작은 master성 테이블(dimemsion 테이블)에 적용하나

2022년 4월 24일
·
0개의 댓글
post-thumbnail

Spark Basic Operations

Basic unit of calculation for Spark (It's like an API for controling Spark)a read-only, fault-tolerant partitioned collection of recordsLineage: User

2022년 4월 10일
·
0개의 댓글
post-thumbnail

python3: can't open file 'python3': [Errno 2] No such file or directory

pyspark를 jupyter notebook으로 사용을 하기 위해 환경변수 설정을 해주었고 다시 되돌리기 위해 환경변수를 제거 했지만 그대로 jupyter notebook으로 돌아감결국 고치려다 다음과 같이 환경변수를 설정해줬지만 에러가 발생 .bashrc에서

2022년 4월 5일
·
0개의 댓글

spark: pushdownQuery

pushdownQuery client(spark 어플리케이션)에서 쿼리를 날리지만, 해당 쿼리를 원천 소스(database)에서 쿼리가 수행되도록 위임하는 것이다. 이렇게 하면 client에서는 필요한 데이터만 읽어올 수 있다. 다만, database에 부하가 생길 수

2022년 3월 25일
·
0개의 댓글

pyspark sql.SparkSession

documentation - https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql.htmlsql.SparkSessionDataset과 DataFrame API를 사용하여 Spark prog

2022년 3월 21일
·
0개의 댓글
post-thumbnail

jupyter notebook pyspark 사용 (mac)

spark download 설치후에 으로 설치 확인.

2022년 3월 20일
·
0개의 댓글

PySpark - Kafka Streaming(1)

pyspark - kafka structured streaming Kafka broker에 저장된 토픽을 streaming을 통해 PySpark를 이용하여 실시간 스트리밍

2022년 1월 4일
·
0개의 댓글

Databricks community로 PySpark 체험하기 #3

Databricks community로 PySpark 체험하기

2022년 1월 3일
·
0개의 댓글

Databricks community로 PySpark 체험하기 #2

Databricks community로 PySpark 체험하기

2022년 1월 3일
·
0개의 댓글

Databricks community로 PySpark 체험하기 #1

Databricks community로 PySpark 체험하기

2022년 1월 2일
·
0개의 댓글

pyspark read csv in google colab

env: pyspark, google colaboratory구글 colab에서 pyspark 구글 드라이브나 코랩에 임시로 올린 csv 파일을 불러오고 싶을 때 출처: ㅁㅈㅅ님 감사합니다.

2021년 11월 24일
·
0개의 댓글

[pyspark] Pandas DataFrame을 Spark DataFrame으로 변환(spark.createDataFrame)

Pandas DataFrame을 Spark DataFrame으로 변환(spark.createDataFrame)

2021년 10월 14일
·
0개의 댓글
post-thumbnail

[Pyspark 101] 설치 및 실행

Pyspark 설치 및 실행

2021년 7월 1일
·
0개의 댓글
post-thumbnail

RDD map, filter 외부 모듈 함수 사용하기 in pyspark

pyspark에서 RDD의 디테일한 데이터 가공작업시에 map은 많이 사용하는 기능이다. lambda를 사용해 간단히 처리하거나, 별도의 함수를 만들어 코드를 간단히 처리할수 있다. 이때 발생하는 에러를 해결해본다.

2020년 5월 30일
·
0개의 댓글