-
groupBy는 일반 RDD에도 사용 가능
- 일반 RDD를 Pair RDD로 변환 후 groupByKey 호출하는 것과 동일한 결과
-
groupByKey 는 각 key의 모든 value 를 메모리로 가져옴 -> 메모리 주의.
- key 별 평균 계산 등 모든 값을 전부 그루핑할 필요가 없다면 aggregateByKey 나 reduceByKey, foldByKey 사용하는 것이 좋음
-
groupBy 에 대해 비교한 글 참조 :
링크텍스트
링크텍스트
-
※ reduceByKey, foldByKey 도 그루핑 연산자