# pyspark
하둡 클러스터 도전기(6) - pyspark
hive를 쓰다 보니 문제가 생겼다.높은 cpu 사용, 데드락 문제나는 나를 야근의 늪으로 빠트렸다.클라우드가 다 해결해 주는 시대에뭐하는 짓인가 싶었다.아무튼 나의 탈출구는 hive metastore에 pyspark를 연결해 보는 것이다.pyspark를 채택한 이유는

Spark에서 sample() API 알고 쓰기
언제 샘플링을 사용할까? Spark를 활용하여 대용량의 데이터를 다루다보면, 필요에 의해 데이터의 샘플링을 진행할 경우가 다수 발생한다. 아래 2가지 예시 포함 다양한 이유로 샘플링을 사용한다.-A/B테스트 등을 위해 모수를 중복없이 여러개의 샘플로 나눌때

[PySpark 개념 1] DataFrame
https://spark.apache.org/docs/latest/api/python/ 1. PySpark Python 에서 사용되는 Apache Spark interface 로, Spark applications 를 Python APIs 로 쓸 수 있을 뿐 아니
[프로젝트]Pagerank 구현
Pagerank 구하는 방법 Eigenvector Method 주어진 그래프로 확률론적 인접행렬을 구할수 있다. 구한 확률론적 인접행렬이 M일때, 구글행렬 G는 $G=dM+(1-d)E$ (d는 보통 0.85) 구글행렬의 고유벡터중 가장 큰값을 가지는 고유값를 이용(가장 큰 고유값는 1을 넘지 않음) 가장큰 고유값에 대응하는 고유벡터인 dominant...

PySpark cannot run with different minor versions.
👉 Docker에서 PySpark를 사용하시는 분👉 PySpark를 사용하여 HDFS에 데이터를 저장하시려는 분PySpark로 HDFS에 데이터 저장 시, 에러 발생 확인파이썬 3.7 설치PySpark를 사용하는 모듈에 하기 코드 추가
TIL4 : SQL 문법 고급까지, 맥에 주피터노트북, pyspark 설치 및 MySQL 연동 삽질까지
SQL 문법 폭풍 진도!!!그리고스파크 환경을 만들어주기 위한 약 7시간에 걸친 오만가지 삽질...엄청난 구글링과 동료 분의 도움을 통해 마침내 해냈다 ㅜ진짜 포기 직전까지 갔고 맥을 아예 싹 밀어버리고 처음부터 다시 설치하고 싶은 충동이 엄청났지만...그래도 뭔가 조

log 1 - pyspark 코드 (기본)
해당 글은 pyspark로 코드를 작성하게 될 때, 필요한 코드가 생각나지 않을 때 보기 위한 자료이다. filter를 할 때 여러 조건이 들어가게 되면, 각 조건을 괄호로 묶어줘야 한다. filter말고 where로 해도 된다 \* filter Vs where

Spark Join Strategy
1\. Broadcast Join 모든 executor의 메모리에 복사하여 shuffle 없이 join하는 방식모든 executor와 driver의 memory에 충분한 공간이 있어야함.일반적으로 사이즈가 작은 master성 테이블(dimemsion 테이블)에 적용하나

Spark Basic Operations
Basic unit of calculation for Spark (It's like an API for controling Spark)a read-only, fault-tolerant partitioned collection of recordsLineage: User

python3: can't open file 'python3': [Errno 2] No such file or directory
pyspark를 jupyter notebook으로 사용을 하기 위해 환경변수 설정을 해주었고 다시 되돌리기 위해 환경변수를 제거 했지만 그대로 jupyter notebook으로 돌아감결국 고치려다 다음과 같이 환경변수를 설정해줬지만 에러가 발생 .bashrc에서
spark: pushdownQuery
pushdownQuery client(spark 어플리케이션)에서 쿼리를 날리지만, 해당 쿼리를 원천 소스(database)에서 쿼리가 수행되도록 위임하는 것이다. 이렇게 하면 client에서는 필요한 데이터만 읽어올 수 있다. 다만, database에 부하가 생길 수
pyspark sql.SparkSession
documentation - https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql.htmlsql.SparkSessionDataset과 DataFrame API를 사용하여 Spark prog
PySpark - Kafka Streaming(1)
pyspark - kafka structured streaming Kafka broker에 저장된 토픽을 streaming을 통해 PySpark를 이용하여 실시간 스트리밍