[Spark] DataFrame 그룹별 topN 예제, 여러 파일 읽기

Woong·2022년 1월 4일

Apache Spark

목록 보기

9/25

DataFrame 을 이용하여 각 그룹별 topN 뽑기

reference

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions.{rank, desc}

...

val dataSetWindow = Window.partitionBy("group_id", "subgroup_id").orderBy(desc("count"))
val rankLimit: Int = 100

val groupedDataFrame = myDataFrame.groupBy("group_id", "subgroup_id", "mydata")
val myDataSet = groupedDataFrame.count.withColumn("rank", rank.over(dataSetWindow)).where($"rank" <= rankLimit)

myDataSet.show(1000) // action

여러 파일에서 DataFrame 으로 읽기

val sparkSession = SparkSession.builder().appName("MyTest").getOrCreate()
val testDF = sparkSession.read.format("com.databricks.spark.csv")
	.option("delimiter","\t").schema(testSchema)
	.load("hdfs://localhost:9000/user/root/DataBase/test/{test1.log,test2.log}");

Parquet

val sparkSession = SparkSession.builder().appName("MyTest").getOrCreate()
val testDF = sparkSession.read.schema(testSchema).parquet("hdfs://localhost:9000/user/root/DataBase/test/{test1.log,test2.log}");

Woong

이전 포스트

[Spark] 누적변수와 공유변수(accumulator, broadcast variable)

다음 포스트

[Spark] DataFrame 그룹별 topN 예제, 여러 파일 읽기

Apache Spark

DataFrame 을 이용하여 각 그룹별 topN 뽑기

여러 파일에서 DataFrame 으로 읽기

[Spark] 누적변수와 공유변수(accumulator, broadcast variable)

[Spark] Failed to bind SparkUI 발생 원인 및 해결방안

0개의 댓글

관련 채용 정보