[데이터 엔지니어링 데브코스 2기] TIL-5주차-파트02 [프로젝트]크롤한 웹데이터로 만들어보는 웹사이트(1)

이재호·2023년 11월 6일
0

1. 주제 선정

4주차까지 배웠던 파이썬을 활용한 웹 크롤링 및 Django 프레임워크 등을 활용하여, 한 주 동안 웹 크롤링을 기반으로한 데이터 시각화 웹사이트를 만듭니다.

팀원들과 얘기를 나누면서 나왔던 주제 선정을 위한 몇 가지 조건(?)과 고려 사항들을 나열해 보자면,

  1. 데이터 수가 많은 웹 사이트인가?
    => 충분한 양의 데이터가 존재해야 유의미한 프로젝트 결과를 낼 수 있기에, 데이터 양을 고려해야 했습니다.

  2. 데이터를 활용하여 시각화를 할 수 있는가?
    => 데이터의 유형이 너무 string인 경우에는 데이터 시각화와 관련하여 유의미한 결과를 도출하기가 쉽지 않습니다.

  3. 크롤링하기 편한 웹 사이트인가?
    => 예를 들어, 반응형 웹 사이트인 경우 크롤링에 더욱 복잡해질 수가 있습니다.

등이 있었습니다. 물론 이는 매우 간략히 표현한 것으로, 구체적인 사항은 더 있습니다. 다들 개발 경험을 토대로 이런저런 아이디어와 의견을 제시하였고, 그 결과 무신사 웹 사이트에서 데이터를 크롤링하여 진행하기로 하였습니다.

주제

주제 : 날짜별 패션 동향 분석 서비스.

기능
1. 특정 날짜 및 스타일 별 브랜드 빈도수 시각화
2. 특정 기간(계절)의 색상 빈도수 시각화
3. 스타일에 따른 색상 빈도수 시각화
4. 브랜드에 따른 가격대
5. 등등.. (추가 계획)

역할 분담
1. 웹 크롤링 및 스크래핑
2. 웹 백엔드(Django)
3. 시각화 및 렌더링

저는 웹 크롤링 및 스크래핑을 담당하기로 하였습니다.

2. 느낀 점

이렇게 제대로 된 프로젝트를 경험해 본 것이 처음이라 여러 가지로 배울 점이 많은 경험이라고 생각합니다. 저를 제외한 팀원 분들은 관련 개발 경험 및 회사 경험을 갖고 계시기에, 상대적으로 제 능력이 부족할 수 있다고 느꼈습니다. 그래서 저 역시 최대한 피해를 안 드리도록 최선을 다해야겠음을 느꼈습니다. 제 목표가 1인분할 수 있는 개발자가 되는 것임으로, 이번 기회를 통해서 제 능력을 좀더 키워나갈 수 있는 경험이 될 것 같아 기대가 많이 듭니다.

3. 고려 사항

  • 파이썬 웹 크롤링 시에 selenium 라이브러리는 drvier와 관련한 이유때문에, requests와 같은 다른 방법보다는 실행 시간이 오래 걸린다(무거운 프로그램이다)는 단점이 있습니다.
  • 데이터 관련 프로젝트를 진행할 때, 데이터 수에 대한 고민도 필요합니다.
  • 기존에 배웠던 내용이 아닌 새로운 기술 스택을 도입할 시, 이에 대한 확실한 이유가 필요합니다. (이 기술을 사용함으로써 얻을 수 있는 확실한 이점)
  • DB 중에서 PostgreSQL이 쿼리 등에 대해서 이점이 많이 존재한다고 합니다.
  • gitflow, github repository의 Issues 메뉴에서 어떤 작업이 필요한지 등에 대한 작업 리스트를 업로드할 수 있습니다. 그리고 작업을 선택한 뒤 Comment 등의 기능을 통해서 pair programming이 가능합니다. 작업이 완료되면 해당 작업은 Closed되며, 다시 Open된 작업들 중에서 하나를 택하여 위 과정을 반복합니다.
    이런 식으로 gitflow를 사용하여 프로젝트에 필요한 작업 리스트에 대해서 효율적으로 협업을 할 수가 있습니다.

4. 피드백

  • 아이디어를 설명할 때, 데이터 시각화에 대한 구체적인 설명이 필요할 것 같습니다.
profile
천천히, 그리고 꾸준히.

0개의 댓글