Dressipi_recsys2022 대회 분석

손준영·2022년 9월 27일
0

대회의 내용

trainsessions(세션에서 view한 아이템, 시간), train purchase(세션에서 아이템을 purchase한 아이템, 시간), item_features(item 자체적인 data)를 쪼개서 train data, validation data로 분류하여 모델링
-> leaderboard data또는 final데이터를 test data(세션 아이디, view한 item, 시각)로 사용하여 최종
Output을 산출해냄

규칙

단, session data를 분석할 때 다른 세션의 데이터를 사용하면 안된다(session A는 session B의 데이터 사용하면 안됨)

분석

1) 모두 user coldstart 문제를 겪음(계절이 바뀜에 따라서 user data가 쓸모 없어지거나, user id가 아닌 session data가 나와있음)

모델링 방법

  • 세션에서 보았던 아이템의 특징들을 보고, 특징의 빈도수를 파라미터로 삼아 모델을 training 하기

  • view한 시각으로 계절 데이터를 파라미터로 생성하여 모델이 이를 학습하도록 하기
    -> 11월- 2월은 겨울과 같은 식으로 분류

-최근 보았던(purchase data와 시간차이가 작은) 데이터에 가중치를 두기(데이터가 sequential data)
-> RNN을 활용하면 이를 더 효율적으로 모델링할 수 있을까?

dataset특징

  • sparse하다(만개가 넘는 아이템 중에서의 일부이며 많아도 10개)(행렬로 나타내면 열의 수가 item이고 각 행이 session을 의미한다면 열의개수가 만개, 그중 있는 데이터가 10개)
  • 새로 등장하는 item이 존재한다(4월에는 없던 데이터가 5월에 등장)
  • 새로 등장하는 item은 view에 나타낼때만, purchase대상에서는 item-coldstart문제 x
  • 시간 순서대로 session에서 view한 아이템이 나타나는 시계열 데이터이다.
profile
나를 개발해서 좋은 개발자 되기

0개의 댓글