- AWS EC2 연결 및 data landing 작업 시작
- 데이터 병합 및 추천 모델 구현
데이터 로딩 작업은 모두 airflow dag를 활용하여 진행할 계획
🎈 AWS EC2 loading
AWS S3에 데이터를 적재함에 있어 Naming rule은 다음과 같다.
🎈 GCS Data loading
bucket 내 crontab을 활용하여 파이썬 코드로 dag를 작성한 후 airflow로 GCS에 적재.
3개의 데이터 소스별로 데이터를 split 하는 기준이 상이하다.
- 크롤링한 데이터의 경우 필드는 다음과 같다.
- API로부터 얻어낸 데이터는 다음과 같다.
여기서 처리해야 하는 작업은 다음과 같다.
- 각 데이터 소스에 존재하는 Ingredient를 10개의 재료와 정량으로 분리하는 작업
- 앞서 설계한 ERD 대로 3개의 데이터 소스를 병합하는 작업을 진행.
- DB 구축 후 추천 모델 적용을 위해 테이블 새로 생성.
데이터 소스로부터 Ingredient를 변화시키는 작업은 다음과 같다.
해당 데이터로부터 아래 과정으로 처리해준다.
해당 작업을 처리해주는데 소스 별로 데이터 처리하는 코드가 상이해 처리하는데 시간이 상당히 오래걸렸다....