docker run -it --rm -p 8888:8888 -v /Users/ben/pyspark:/home/jovyan/work jupyter/pyspark-notebook\-it: 컨테이너에 터미널을 연결하여 인터랙티브하게 사용할 수 있게 합니다.\--rm: 컨테이
hello worldhello worldhello worldhello worldhello world('hello', 5), ('world', 5)flatMap(): RDD의 각 요소에 함수를 적용한 후, 결과를 다시 평평하게 펼쳐 새로운 RDD를 만듭니다.lambda
reduceByKey add groupByKey, mapValues

house_price.csv가격대별 평균 갯수 구하기( 도시 무시 해도 될듯 ? ) 서울 1만원짜리 3개, 1행서울 1만원짜리 5개, 2행\-> 1만원짜리 평균 4개서울 4만원짜리 7개, 3행\-> 4만원짜리 평균 7개 인천 4천원자리 2개, 서울 4천원짜리 2개, 8
temperature.csvmap 함수는 RDD(Resilient Distributed Dataset)나 DataFrame의 각 요소에 주어진 함수를 적용하여 새로운 RDD 또는 DataFrame을 반환합니다.map 함수는 변환된 결과를 바로 반환해야 하므로, yiel

PySpark에서 map과 flatMap은 모두 RDD(Resilient Distributed Dataset)나 DataFrame의 각 요소에 함수를 적용하여 새로운 RDD 또는 DataFrame을 생성하는 변환 연산입니다. 하지만, 결과를 생성하는 방식에 차이가 있습

PySpark에서 DataFrame은 데이터를 테이블 형태로 구조화하여 저장하고 처리하는 데 사용되는 분산 데이터 컬렉션입니다. 쉽게 말해, 엑셀 스프레드시트처럼 행과 열로 구성된 데이터를 다루는 방식이라고 생각하시면 됩니다.스키마 (Schema): 각 열에는 이름과

data = spark.read.option("header","true").option("inferSchema","true").csv(path)리턴값 spark.read에 return 값은 디폴로 DataFrame이다 . 앞에 txt파일들을 읽어 왔을때랑 다르게 별도로

pyspark.sql.functions.split() 함수는 문자열 컬럼을 특정 구분자(delimiter)를 기준으로 분할하여 배열(Array) 타입의 컬럼으로 변환하는 데 사용됩니다.쉽게 말해 배열이나, map 처럼 한 컬럼에 복수 개 있는 변수를 row 단위로 내려

여러가지 방법이 있는듯 하나, 일단 강의에서는 structType을 활용유의사항: spark.read.schema(table_schema).csv(csv_file_path) 스키마 먼저 -> csv 읽기스키마 타입도 명시적으로 제어할수 있음. 스키마 변경 시 코드 수정
PySpark 함수와 Column 연산을 활용하여 복잡한 열 변환 작업을 수행의 예를알려줘 이거 공부해서 작성하시오 PySpark 함수와 Column 연산을 활용한 복잡한 열 변환 예시 예시 시나리오: 쇼핑몰 거래 데이터에서 다음과 같은 복잡한 열 변환 작업을
참고 실리콘 엔지니어에게 배우는 파이썬 아파치 스파크
집계 함수(Aggregate function): 중복된 요소가 제거된 객체 집합을 반환합니다.DataFrame의 여러 문자열 열을 특정 구분자를 사용하여 하나의 문자열 열로 합치는 기능을 설명합니다.관련있는 hero1 과 hero2 graph로 형태로 저장되어 있음 p
df.select()로 칼럼 평균값 구해서 대체 df.select() 리턴타입도 dataFrame이기 때문에, .collect()로 받아서 .collect()0으로 처리 가능, .collect()로 변환 시 dataFrame에 위치로 값을 받아 올수 있음 .
df.select(f.year('date')).show()df.select(f.month('date')).show()df.select(f.dayofmonth('date').alias('day')).show()df.select(f.dayofyear('date').alia
JOIN dfuser.join(dfsalary, dfuser.id ==dfsalary.id, 'left') multiple join with & 디폴트는 이너 조인 인듯 ? dfuser.join(dfsalary,(dfuser.id == dfsalary.id) & (df_user.id == 1000)) #where dfuser.join(dfsalary...
뭐 아래와 같이 ... 기술적으로 뭔가 좋아 보이긴 하지만 기본 RDB 쿼리 튜닝할때 처럼 조인 되는 subQuery로 기간 및 조건 으로 줄여서 조인하는하는거랑 비슷해 보이는듯 ?마스터 테이블에 파티션닝도 미리 되어 있어야 하고 ..Apache Spark 3.0에서