8일차

2400·2022년 6월 29일

pyspark는 pandas 보다는 sql 느낌이다.
의외로 내장 함수로 지원하는게 다양하게 존재한다. 그리고 udf를 쓰지 않는게 좋아보인다. 2가지 이유가 존재한다.
a. 약간의 성능 저하
b. 유지보수의 용이성
특히 b에 대해서 더 공감이 가는 이유는 예전에 hackerrank에서 sql 문제를 풀면서 토론 게시판을 봤는데, n년차 개발자의 조언이 기억난다. 본인이 수년간 개발하며 각 개발자 본인들이 정의한 자체 로직으로 쿼리를 하면 후임들이 그 로직을 보고서 이해가 안되는 문제들을 많이 겪었으며 반면에 자체 윈도우 함수로 구현한 경우 그 로직이 잘 이해가 되며 유지보수 또한 쉬웠다는 것이다. 따라서 본인은 최대한 내장 윈도우 함수를 적극 사용하는 것을 권장한다고 한다.
pyspark 상당히 흥미롭다. 잘하고 싶다.

공부용 혹은 정리용 혹은 개인저장용