# pyspark

25개의 포스트

PySpark TestCode

해당 문서는 PySpark를 이용하여 UnitTest 하는 방법을 정리 하기 위해 작성된 문서이다.

2023년 2월 20일
·
0개의 댓글
·

하둡 클러스터 도전기(6) - pyspark

hive를 쓰다 보니 문제가 생겼다.높은 cpu 사용, 데드락 문제나는 나를 야근의 늪으로 빠트렸다.클라우드가 다 해결해 주는 시대에뭐하는 짓인가 싶었다.아무튼 나의 탈출구는 hive metastore에 pyspark를 연결해 보는 것이다.pyspark를 채택한 이유는

2023년 2월 11일
·
0개의 댓글
·
post-thumbnail

Spark에서 sample() API 알고 쓰기

언제 샘플링을 사용할까? Spark를 활용하여 대용량의 데이터를 다루다보면, 필요에 의해 데이터의 샘플링을 진행할 경우가 다수 발생한다. 아래 2가지 예시 포함 다양한 이유로 샘플링을 사용한다.-A/B테스트 등을 위해 모수를 중복없이 여러개의 샘플로 나눌때

2023년 1월 8일
·
0개의 댓글
·

PySpark on mac

해당 문서는 m1 맥북프로에서 pyspark 환경 설정을 진행한 내용을 정리하기 위해 작성된 문서입니다.

2022년 11월 27일
·
1개의 댓글
·
post-thumbnail

[PySpark 개념 1] DataFrame

https://spark.apache.org/docs/latest/api/python/ 1. PySpark Python 에서 사용되는 Apache Spark interface 로, Spark applications 를 Python APIs 로 쓸 수 있을 뿐 아니

2022년 11월 25일
·
0개의 댓글
·

[프로젝트]Pagerank 구현

Pagerank 구하는 방법 Eigenvector Method 주어진 그래프로 확률론적 인접행렬을 구할수 있다. 구한 확률론적 인접행렬이 M일때, 구글행렬 G는 $G=dM+(1-d)E$ (d는 보통 0.85) 구글행렬의 고유벡터중 가장 큰값을 가지는 고유값를 이용(가장 큰 고유값는 1을 넘지 않음) 가장큰 고유값에 대응하는 고유벡터인 dominant...

2022년 10월 8일
·
0개의 댓글
·
post-thumbnail

[프로젝트]친구찾기알고리즘

파이스파크를 이용한 친구찾기 알고리즘

2022년 8월 3일
·
0개의 댓글
·
post-thumbnail

PySpark cannot run with different minor versions.

👉 Docker에서 PySpark를 사용하시는 분👉 PySpark를 사용하여 HDFS에 데이터를 저장하시려는 분PySpark로 HDFS에 데이터 저장 시, 에러 발생 확인파이썬 3.7 설치PySpark를 사용하는 모듈에 하기 코드 추가

2022년 8월 3일
·
0개의 댓글
·

TIL4 : SQL 문법 고급까지, 맥에 주피터노트북, pyspark 설치 및 MySQL 연동 삽질까지

SQL 문법 폭풍 진도!!!그리고스파크 환경을 만들어주기 위한 약 7시간에 걸친 오만가지 삽질...엄청난 구글링과 동료 분의 도움을 통해 마침내 해냈다 ㅜ진짜 포기 직전까지 갔고 맥을 아예 싹 밀어버리고 처음부터 다시 설치하고 싶은 충동이 엄청났지만...그래도 뭔가 조

2022년 7월 27일
·
0개의 댓글
·
post-thumbnail

log 1 - pyspark 코드 (기본)

해당 글은 pyspark로 코드를 작성하게 될 때, 필요한 코드가 생각나지 않을 때 보기 위한 자료이다. filter를 할 때 여러 조건이 들어가게 되면, 각 조건을 괄호로 묶어줘야 한다. filter말고 where로 해도 된다 \* filter Vs where

2022년 7월 13일
·
0개의 댓글
·
post-thumbnail

pyspark 설치, 윈도우 10 개발 환경 구축

윈도우 10에서 pyspark를 설치하여 local 개발 환경을 구축 가이드를 적어봅니다.

2022년 7월 6일
·
0개의 댓글
·
post-thumbnail

Spark Join Strategy

1\. Broadcast Join 모든 executor의 메모리에 복사하여 shuffle 없이 join하는 방식모든 executor와 driver의 memory에 충분한 공간이 있어야함.일반적으로 사이즈가 작은 master성 테이블(dimemsion 테이블)에 적용하나

2022년 4월 24일
·
0개의 댓글
·
post-thumbnail

Spark Basic Operations

Basic unit of calculation for Spark (It's like an API for controling Spark)a read-only, fault-tolerant partitioned collection of recordsLineage: User

2022년 4월 10일
·
0개의 댓글
·
post-thumbnail

python3: can't open file 'python3': [Errno 2] No such file or directory

pyspark를 jupyter notebook으로 사용을 하기 위해 환경변수 설정을 해주었고 다시 되돌리기 위해 환경변수를 제거 했지만 그대로 jupyter notebook으로 돌아감결국 고치려다 다음과 같이 환경변수를 설정해줬지만 에러가 발생 .bashrc에서

2022년 4월 5일
·
0개의 댓글
·

spark: pushdownQuery

pushdownQuery client(spark 어플리케이션)에서 쿼리를 날리지만, 해당 쿼리를 원천 소스(database)에서 쿼리가 수행되도록 위임하는 것이다. 이렇게 하면 client에서는 필요한 데이터만 읽어올 수 있다. 다만, database에 부하가 생길 수

2022년 3월 25일
·
0개의 댓글
·

pyspark sql.SparkSession

documentation - https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql.htmlsql.SparkSessionDataset과 DataFrame API를 사용하여 Spark prog

2022년 3월 21일
·
0개의 댓글
·
post-thumbnail

jupyter notebook pyspark 사용 (mac)

spark download 설치후에 으로 설치 확인.

2022년 3월 20일
·
0개의 댓글
·

PySpark - Kafka Streaming(1)

pyspark - kafka structured streaming Kafka broker에 저장된 토픽을 streaming을 통해 PySpark를 이용하여 실시간 스트리밍

2022년 1월 4일
·
0개의 댓글
·

Databricks community로 PySpark 체험하기 #3

Databricks community로 PySpark 체험하기

2022년 1월 3일
·
0개의 댓글
·

Databricks community로 PySpark 체험하기 #2

Databricks community로 PySpark 체험하기

2022년 1월 3일
·
0개의 댓글
·