
AWS Athena에서 쿼리 작업을 진행하는데 있어 몇몇 정적 데이터가 문제를 일으켰다. 이에 원인 파악에 나섰는데 컬럼명을 지정해주지 않아 생긴 에러로 보인다.
문제를 일으킨 데이터들도 해결해야하기도 하고 임시로 컬럼명을 붙여놓은 다른 데이터들도 이번에 모두 Data Cleaning에서 지정된 컬럼명이 부여되도록 코드를 수정했다.
각자 카테고리를 나눠 맡아 시각화를 위해 ELT하는 작업을 진행했다.
문화 관련 파트를 맡았는데 하나로 취합된 데이터가 없어 따로 취합해서 진행했다.
MWAA서버에서 작성한 dag들이 정상 작동하는지 체크하고 오류를 수정했다.
ETL과 Data Cleaning 코드들을 interval에 따라 묶어서 Scheduling하는 작업을 진행했다.
추가로 ExternalTaskSensor를 이용해 trigger했던 기존 방식에서 TriggerDagRunOperator을 이용해 ETL 이후에 Data Cleaning이 시행될 수 있도록 자동화하는데 성공했다.
trigger_dag_task = TriggerDagRunOperator(
task_id='trigger_dag_task',
trigger_dag_id='ad_hoc_ELT',
execution_date='{{data_interval_start}}',
reset_dag_run=True,
poke_interval=60,
allowed_states=['success', 'failed', 'upstream_failed']
)
