[DataEngineering] Join in Spark

Zoe·2022년 5월 20일
0

데이터공학

목록 보기
7/9

Join in Spark


✅ table

  • table은 똑같음
  • loj, roj, foj 모두 기억

✅ join 연산

  • pair RDD : key value를 가짐
  • join연산이 기본적으로 있음
  • this object, other object
  • 데이터 파일 읽어옴 -> 한 줄을 어레이의 한 칸으로 하는 RDD를 만듦 -> 조인키를 키로하고 나머지를 밸류로 하는 바꿔주는 mapToPair 함수를 호출 -> 별도로 코드를 짤 필요 없이 join을 호출하면 결과가 만들어짐.

✅ code

  • spark.read().textFile(args[0]).javaRDD()
  • product.mapToPair(pfA)
  • pfA
profile
iOS 개발자😺

0개의 댓글