DevCourse TIL Final Project #1

김태준·2023년 8월 8일
0

Data Enginnering DevCourse

목록 보기
83/93
post-thumbnail

팀원들과 회의를 거쳐 주제 선정 완료.

주제는 다음과 같다.

  • 레시피 데이터 기반 추천 모델 구현 및 웹 사이트 구축

🎇 주제 선정 및 목표

만개의 레시피, 유튜브 등 여러 채널에 저장된 레시피, 식재료, 조리기구, 조리방법 등 데이터를 활용하여 ETL, spark를 거쳐 추천 알고리즘을 개발하고 웹 사이트로 이를 구현하고자 한다.

  • 조회수, 댓글수 기반 인기 레시피 추천
  • 유저가 선택한 음식과 어울리는 타 음식 추천
  • 선택한 음식과 동일한 식재료로 구성되어 만들 수 있는 음식 추천

초기 목표는 다음과 같이 잡았으나, 구축한 ETL을 바탕으로 과연 어디까지 추천 모델을 구현할 수 있을지, 웹 사이트를 어떻게 구현할지 등의 디테일한 내용들을 추후 업데이트할 예정이다.

💡 계획

우선 1차적인 계획은 다음과 같다.

  • crontab 구현(crawling) 및 Airflow dag 도입하여 AWS 적재
  • AWS 내 학습 + 데이터 모델링 등 DB 설계
  • ELT 환경 spark 적용해 테이블 구축 (visual) 및 sparkml 적용한 추천 모델 구현
  • 앞서 구현한 내용 웹사이트에 적용

이외로 뭐 협업 툴이나 개인적인 회고 등을 주기적으로 작성할 계획

  • Jira, Git, slack 등 협업 tool 활발히 활용 (페어프로그래밍 진행)
  • 매주 주말 프로젝트 회고 작성

✅ Crawling

만개의 레시피 사이트 내 일정 카테고리를 기준으로 크롤링 진행
동일한 음식으로 저장된 카테고리에 한해서 한 페이지 내 레시피, 식재료 등 데이터를 긁어올 계획이다.

profile
To be a DataScientist

0개의 댓글