[DataEngineering] Join in Spark
Join in Spark
✅ table
- table은 똑같음
- loj, roj, foj 모두 기억
✅ join 연산
- pair RDD : key value를 가짐
- join연산이 기본적으로 있음
- this object, other object
- 데이터 파일 읽어옴 -> 한 줄을 어레이의 한 칸으로 하는 RDD를 만듦 -> 조인키를 키로하고 나머지를 밸류로 하는 바꿔주는 mapToPair 함수를 호출 -> 별도로 코드를 짤 필요 없이 join을 호출하면 결과가 만들어짐.
✅ code
- spark.read().textFile(args[0]).javaRDD()
- product.mapToPair(pfA)
- pfA