DevCourse TIL Day4 Week13 - Project3

김태준·2023년 6월 29일
0

Data Enginnering DevCourse

목록 보기
61/93
post-thumbnail

✅ airflow - gcp connections

기존 작성한 코드에서 각 operator 별로 conn_id를 지정해주고 다시 실행을 해보았다.
bigquery_conn_id, google_cloud_storage_conn_id

추가로 schema_object 수정 및 gcshook, bigqueryhook 사용

  • BigqueryOperator : Bigquery로 로딩 후 sql 결과 변수 저장 가능
  • BigqueryExecuteOperator : sql 결과 변수 저장 X, 그대로 Bigquery에만 sql결과 저장

계속해서 schema_object에서 에러가 발생 중...
에러 해결 시급
1. recruit (사람인 API) loading 완료. -> schema_object 처리
2. google_trend loading 처리 필요. (스키마 변경)
3. schema 변경에 따른 데이터 적재 처리 자동화 필요, autodetect = True X
(필드 수가 늘어나는 현산에 대해 보완 필요.)
방법 1. start_date 조건 처리?
방법 2. schema_object 가용 여부
방법 3. loading 이전 schema validation operator 추가

profile
To be a DataScientist

0개의 댓글