3주차

GemstoneS·2022년 3월 22일
1

collecting data 주차

<월>

  • '지그재그', '에이블리'와 같은 버티컬 커머스 플랫폼의 경우 모바일 앱으로만 존재하며, 웹 사이트가 존재하지 않아 pc로 모바일 화면을 볼 수는 있었지만 이를 크롤링 하기는 어려울 것 같다고 판단하였습니다.
  • 따라서, 일단 '무신사'의 의류 데이터를 크롤링하기로 결정하였습니다.

<화>

  • '무신사'의 의류 카테고리가 여럿 있는데 이 중 아우터 카테고리만을 특정하였습니다.
  • 총 데이터 수는 약 5만5천개 정도가 되기에 이전 프로젝트의 영화 크롤링 시 시간이 꽤 오래 걸렸던 점을 고려하여 아우터 카테고리에서 여성으로 필터링 후 여성 아우터만을 대상으로 하여 아우터 내 각 카테고리 별로 3페이지씩 상품명, 이미지, 브랜드, 좋아요 수, 구매 후기(별점 및 후기 갯수), 태그, 가격 크롤링을 진행하였습니다.

<수>

  • 총 크롤링 된 수는 약 5700개 였으며, 이를 이용하여 이미지 학습을 진행해 보기로 하였으나, 이미지를 확인해본 결과 문제점이 있었습니다.
  • 이미지 classification은 무신사 크롤링을 통해 넘겼으나, 의류 이미지만이 명확하게 나온 이미지가 필요하나 모델이 의류를 착용하고 있는 착장샷이 문제가 되었습니다. 즉, 이미지 내에서 의류 이미지만을 추출해내는 image segmentation이 필요하였습니다.
  • 또한 여태까지 했던 방식으로 colab을 통해 단순히 csv파일로 데이터를 떨어뜨렸는데 이번 프로젝트에선 AWS를 활용할 것이였기에 다시 크롤링 부터 진행하였습니다.

<목>

  • AWS의 S3 스토리지를 이용하여 s3내 저장된 유사한 이미지를 불러와야 하기 때문에 scrapy, selenium을 이용하여 크롤링된 데이터를 csv파일로 떨어뜨리는 것 이외에 이미지를 s3로 저장이 되도록 하였습니다.

<금>

  • Amazon Rekognition, image segamentation과 관련하여 공부 하였습니다.
profile
#AI #python #back-end

1개의 댓글

comment-user-thumbnail
2022년 3월 24일

ㅎㅎㅎ 점점 짧아집니다? 힘냅시다 좀 더!

답글 달기