02.21(금) - 본캠프 60일차 - 일본 @cosme 데이터

Laña·2025년 2월 21일
0
post-thumbnail

SNS 버즈량

이라 쓰고 'Youtube 조회 수'라 읽는다.. (인스타, 틱톡 같은 SNS 데이터를 긁어오기는 어려웠기 때문!)

  • 제품별로 조회수 합산 후 상위 5개

    셀이 5개가 나와야하는데 조회수로 합산하다보니 동일 영상에 나온 제품들은 조회수가 동일하게 들어가버리게 됐다.

이때, 우리는 기초스킨케어 중 클렌징마스크 팩 은 빼기로 했기 때문에 데이터에서 전처리가 필요해보였다.

  • 상위 10개

    근데 갑자기 조회수가 안보인다..?!?!

    각자 셀에 잘 들어가있는데

    조회수 합산 한 수치가 잘 안들어가있는 것이었다!!

    다행히 이건 별건 아니었고 조회수를 연속형 -> 불연속형 변경하니 해결되었다!

아직 전처리가 더 필요한 우리 원본 데이터 ..ㅎㅎ 햄벅하다^^

결과

클렌징 & 마스크 제거 후 상위 5개 ver.


일본 @cosme 데이터

오늘 가장 문제가 많았던 금쪽이 데이터😩

올리브영이나 화해 같은 경우 데이터를 랭킹 상위 100개씩 가져왔는데, @cosme 같은 경우는 상위 50위까지만 보여줬다.
그렇다고 다른 기간의 랭킹을 가져오기에는 겹치는 제품이 많았고 기간별로 집계량이 다른데 그 수치를 알 수는 없기 때문에 그냥 가져올 수 있는 50개의 데이터만 다 가져왔다. (물론 우리 팀원이)

  • 앳코스메 raw data (일본어)

    이때 성분이 많이 없길래.. 살짝 걱정했지만 그래도 일단 외국어로 데이터 크롤링한게 어려운거니 괜찮겠지 싶었다..

번역 후 색조 화장품 + 클렌징 + 마스크 등 제품 리스트에서 삭제

  • 앳코스메 전처리 후 데이터 (한국어)

    진짜 번역도 80%이상 너무 잘 나와서 문제 없겠다 생각했다..

근데 이게 왠걸ㅠ

상품명 - 브랜드명이 일치되지 않는 것이다 ㄴㅇㅁㅇㄱ

상품명: 리포좀 어드밴스드 리... / 브랜드명: 넘버즈인

출처: @cosme - 번역한 단어 기준


1위 상품명: 5번 시라타마 글루타티온 C 뿌리는 마스크 / 브랜드명: 넘버즈인

7위 상품명: 리포좀 어드밴스드 리페어 세럼 / 브랜드명: 코스메 데콜테


아니 지금 프로젝트 기간 얼마 남지도 않았는데 이러면 어떻게 하라고
이건 뭐 전처리 하는 과정에서 브랜드명이랑 제품명이랑 싱크가 안맞은거라 그리고 50개에서 전처리하니 막상 30개 정도 밖에 안되서 그냥 하나씩 찾아서 넣기루 했다~^^

근데 위에서도 알 수 있듯이 우리나라와는 다르게 베스트 상품이 표시되어서 옵션을 변경하는게 아니라 그냥 제품과 브랜드명에 대해서만 안내하고 있다. 역시 우리가 원하는 지표는 한 번에 바로바로 얻기 힘들구나를 새삼 깨달았다..

  • 그렇게 팀원들과 회의를 거치게 되고...

    다음 화면을 보고 실성한 나를 발견한 팀원의 반응ㅎㅎㅎㅎ

    아니 한번에 알려주면 좋잖아!! 너네 한번에 정보 모아서 보는거 좋아한다며ㅠㅠㅠㅠ
    왜 용량별 리뷰수는 한번에 안보여주냐고ㅠㅠ

    해당 제품을 클릭해야만 정확한 수치를 알 수 있는 알 수 없는 이상한 시스템..

암튼 회의를 통해 제품군, 브랜드, 제품별 등에 따라 선호하는 용량이 달라질 것 같기에(= 용량이 통일되지 못해서) 그냥 해당 제품의 용량과 가격을 합쳐서 10ml(g)을 기준으로 평균 가격을 내기로 했다

(당분간 일본, 화장품, 올리브영, 화해 다 쳐다도 안볼듯!!!!)


오늘치 끝!!

profile
SQL, Python, Code Kata

0개의 댓글

관련 채용 정보