팀원들과 회의를 거쳐 주제 선정 완료.
주제는 다음과 같다.
- 레시피 데이터 기반 추천 모델 구현 및 웹 사이트 구축
만개의 레시피, 유튜브 등 여러 채널에 저장된 레시피, 식재료, 조리기구, 조리방법 등 데이터를 활용하여 ETL, spark를 거쳐 추천 알고리즘을 개발하고 웹 사이트로 이를 구현하고자 한다.
- 조회수, 댓글수 기반 인기 레시피 추천
- 유저가 선택한 음식과 어울리는 타 음식 추천
- 선택한 음식과 동일한 식재료로 구성되어 만들 수 있는 음식 추천
초기 목표는 다음과 같이 잡았으나, 구축한 ETL을 바탕으로 과연 어디까지 추천 모델을 구현할 수 있을지, 웹 사이트를 어떻게 구현할지 등의 디테일한 내용들을 추후 업데이트할 예정이다.
우선 1차적인 계획은 다음과 같다.
- crontab 구현(crawling) 및 Airflow dag 도입하여 AWS 적재
- AWS 내 학습 + 데이터 모델링 등 DB 설계
- ELT 환경 spark 적용해 테이블 구축 (visual) 및 sparkml 적용한 추천 모델 구현
- 앞서 구현한 내용 웹사이트에 적용
이외로 뭐 협업 툴이나 개인적인 회고 등을 주기적으로 작성할 계획
- Jira, Git, slack 등 협업 tool 활발히 활용 (페어프로그래밍 진행)
- 매주 주말 프로젝트 회고 작성
만개의 레시피 사이트 내 일정 카테고리를 기준으로 크롤링 진행
동일한 음식으로 저장된 카테고리에 한해서 한 페이지 내 레시피, 식재료 등 데이터를 긁어올 계획이다.