시리즈

pySpark

1.시작하기 Apache Spark with Docker

docker run -it --rm -p 8888:8888 -v /Users/ben/pyspark:/home/jovyan/work jupyter/pyspark-notebook\-it: 컨테이너에 터미널을 연결하여 인터랙티브하게 사용할 수 있게 합니다.\--rm: 컨테이

2024년 6월 2일

2. pySpark1 - Word count

hello worldhello worldhello worldhello worldhello world('hello', 5), ('world', 5)flatMap(): RDD의 각 요소에 함수를 적용한 후, 결과를 다시 평평하게 펼쳐 새로운 RDD를 만듭니다.lambda

2024년 6월 2일

3.pySpark2 - 기본연산

reduceByKey add groupByKey, mapValues

2024년 6월 2일

4.pySpark4- Average Example

house_price.csv가격대별 평균 갯수 구하기( 도시 무시 해도 될듯 ? ) 서울 1만원짜리 3개, 1행서울 1만원짜리 5개, 2행\-> 1만원짜리 평균 4개서울 4만원짜리 7개, 3행\-> 4만원짜리 평균 7개 인천 4천원자리 2개, 서울 4천원짜리 2개, 8

2024년 6월 2일

5.pySpark5- filter, min/max

temperature.csvmap 함수는 RDD(Resilient Distributed Dataset)나 DataFrame의 각 요소에 주어진 함수를 적용하여 새로운 RDD 또는 DataFrame을 반환합니다.map 함수는 변환된 결과를 바로 반환해야 하므로, yiel

2024년 6월 3일

6.pySpark6 - Map vs. Flatmap 차이 ?

PySpark에서 map과 flatMap은 모두 RDD(Resilient Distributed Dataset)나 DataFrame의 각 요소에 함수를 적용하여 새로운 RDD 또는 DataFrame을 생성하는 변환 연산입니다. 하지만, 결과를 생성하는 방식에 차이가 있습

2024년 6월 6일

7.pySpark7 - Spark SQL & DataFrame

PySpark에서 DataFrame은 데이터를 테이블 형태로 구조화하여 저장하고 처리하는 데 사용되는 분산 데이터 컬렉션입니다. 쉽게 말해, 엑셀 스프레드시트처럼 행과 열로 구성된 데이터를 다루는 방식이라고 생각하시면 됩니다.스키마 (Schema): 각 열에는 이름과

2024년 6월 9일

8.pySpark8 - CSV DataFrame

data = spark.read.option("header","true").option("inferSchema","true").csv(path)리턴값 spark.read에 return 값은 디폴로 DataFrame이다 . 앞에 txt파일들을 읽어 왔을때랑 다르게 별도로

2024년 6월 9일

9.pySpark9 - wordCount , explode, split

pyspark.sql.functions.split() 함수는 문자열 컬럼을 특정 구분자(delimiter)를 기준으로 분할하여 배열(Array) 타입의 컬럼으로 변환하는 데 사용됩니다.쉽게 말해 배열이나, map 처럼 한 컬럼에 복수 개 있는 변수를 row 단위로 내려

2024년 6월 9일

10.pySpark10- DataFrame header 부재(structType)

여러가지 방법이 있는듯 하나, 일단 강의에서는 structType을 활용유의사항: spark.read.schema(table_schema).csv(csv_file_path) 스키마 먼저 -> csv 읽기스키마 타입도 명시적으로 제어할수 있음. 스키마 변경 시 코드 수정

2024년 6월 9일

11.pySpark11 - withColumn 컬럼 추가/컬럼 연산

PySpark 함수와 Column 연산을 활용하여 복잡한 열 변환 작업을 수행의 예를알려줘 이거 공부해서 작성하시오 PySpark 함수와 Column 연산을 활용한 복잡한 열 변환 예시 예시 시나리오: 쇼핑몰 거래 데이터에서 다음과 같은 복잡한 열 변환 작업을

2024년 6월 10일

12.pySpark12 - Broadcast join

참고 실리콘 엔지니어에게 배우는 파이썬 아파치 스파크

2024년 6월 16일

13.pySpark13 - DataFrame Graph

집계 함수(Aggregate function): 중복된 요소가 제거된 객체 집합을 반환합니다.DataFrame의 여러 문자열 열을 특정 구분자를 사용하여 하나의 문자열 열로 합치는 기능을 설명합니다.관련있는 hero1 과 hero2 graph로 형태로 저장되어 있음 p

2024년 6월 16일

14.pySpark14 - DataFrame null 처리

df.select()로 칼럼 평균값 구해서 대체 df.select() 리턴타입도 dataFrame이기 때문에, .collect()로 받아서 .collect()0으로 처리 가능, .collect()로 변환 시 dataFrame에 위치로 값을 받아 올수 있음 .

2024년 6월 16일

15.pySpark15 - date 타입 핸들링

df.select(f.year('date')).show()df.select(f.month('date')).show()df.select(f.dayofmonth('date').alias('day')).show()df.select(f.dayofyear('date').alia

2024년 6월 17일

16.pySpark16 - join

JOIN dfuser.join(dfsalary, dfuser.id ==dfsalary.id, 'left') multiple join with & 디폴트는 이너 조인 인듯 ? dfuser.join(dfsalary,(dfuser.id == dfsalary.id) & (df_user.id == 1000)) #where dfuser.join(dfsalary...

2024년 6월 17일

17.pyspark - DPP(Dynamic Partition Pruning)

뭐 아래와 같이 ... 기술적으로 뭔가 좋아 보이긴 하지만 기본 RDB 쿼리 튜닝할때 처럼 조인 되는 subQuery로 기간 및 조건 으로 줄여서 조인하는하는거랑 비슷해 보이는듯 ?마스터 테이블에 파티션닝도 미리 되어 있어야 하고 ..Apache Spark 3.0에서

2024년 6월 29일

pySpark

1.시작하기 Apache Spark with Docker

2. pySpark1 - Word count

3.pySpark2 - 기본연산

4.pySpark4- Average Example

5.pySpark5- filter, min/max

6.pySpark6 - Map vs. Flatmap 차이 ?

7.pySpark7 - Spark SQL & DataFrame

8.pySpark8 - CSV DataFrame

9.pySpark9 - wordCount , explode, split

10.pySpark10- DataFrame header 부재(structType)

11.pySpark11 - withColumn 컬럼 추가/컬럼 연산

12.pySpark12 - Broadcast join

13.pySpark13 - DataFrame Graph

14.pySpark14 - DataFrame null 처리

15.pySpark15 - date 타입 핸들링

16.pySpark16 - join

17.pyspark - DPP(Dynamic Partition Pruning)

9.pySpark9 - wordCount , explode, split