에어플로우에서 과거 기간 데이터를 채우는 방법은 총 2가지(catchup, backfill)가 있습니다.
Hive에는 internal table과 external table 두 가지 유형의 테이블이 있습니다.
MSCK는 MetaStore Check의 약자입니다.즉, 말그대로 msck repair table 명령어는 메타스토어를 체크하여 hive table이 바라보는 location에는 존재하지만, 메타스토어에는 없는 파티션을 수동 추가하는 명령어입니다.
Pandas DataFrame에 Apply 함수를 적용할 때, 병렬 처리로 속도를 크게 개선할 수 있습니다. 제 경우엔 병렬처리로 9시간 걸리던 잡을 1시간으로 단축시켰습니다. Apply 함수를 사용한다면 꼭 병렬처리로 시간을 단축시키시는걸 추천드립니다 👍