DevCourse TIL Final Project #6

김태준·2023년 8월 24일
1

Data Enginnering DevCourse

목록 보기
88/93
post-thumbnail

✅ To do list

    1. AWS EC2 연결 및 data landing 작업 시작
    1. 데이터 병합 및 추천 모델 구현

데이터 로딩 작업은 모두 airflow dag를 활용하여 진행할 계획

🎈 AWS EC2 loading

AWS S3에 데이터를 적재함에 있어 Naming rule은 다음과 같다.

🎈 GCS Data loading

bucket 내 crontab을 활용하여 파이썬 코드로 dag를 작성한 후 airflow로 GCS에 적재.

🎈 Data preprocessing


3개의 데이터 소스별로 데이터를 split 하는 기준이 상이하다.

  • 크롤링한 데이터의 경우 필드는 다음과 같다.
  • API로부터 얻어낸 데이터는 다음과 같다.

여기서 처리해야 하는 작업은 다음과 같다.

    1. 각 데이터 소스에 존재하는 Ingredient를 10개의 재료와 정량으로 분리하는 작업
    1. 앞서 설계한 ERD 대로 3개의 데이터 소스를 병합하는 작업을 진행.
    1. DB 구축 후 추천 모델 적용을 위해 테이블 새로 생성.

데이터 소스로부터 Ingredient를 변화시키는 작업은 다음과 같다.

해당 데이터로부터 아래 과정으로 처리해준다.

해당 작업을 처리해주는데 소스 별로 데이터 처리하는 코드가 상이해 처리하는데 시간이 상당히 오래걸렸다....

profile
To be a DataScientist

0개의 댓글