- pyspark는 pandas 보다는 sql 느낌이다.
- 의외로 내장 함수로 지원하는게 다양하게 존재한다. 그리고 udf를 쓰지 않는게 좋아보인다. 2가지 이유가 존재한다.
a. 약간의 성능 저하
b. 유지보수의 용이성
특히 b에 대해서 더 공감이 가는 이유는 예전에 hackerrank에서 sql 문제를 풀면서 토론 게시판을 봤는데, n년차 개발자의 조언이 기억난다. 본인이 수년간 개발하며 각 개발자 본인들이 정의한 자체 로직으로 쿼리를 하면 후임들이 그 로직을 보고서 이해가 안되는 문제들을 많이 겪었으며 반면에 자체 윈도우 함수로 구현한 경우 그 로직이 잘 이해가 되며 유지보수 또한 쉬웠다는 것이다. 따라서 본인은 최대한 내장 윈도우 함수를 적극 사용하는 것을 권장한다고 한다.
- pyspark 상당히 흥미롭다. 잘하고 싶다.