Explict&Implicit Datasets

park paul·2021년 8월 19일
0

Explicit Datasets

Imagae classification에 MNIST, Recommend system에는 Movielens Data를 사용한다.
평점 기록처럼 유저가 직접(Explicit)표현한 Data를 Explicit Data라 한다.
이 데이터는 유저의 Like&Hate를 정확히 알 수 있지만, 이 데이터를 수집하는 것은 장벽이 높기때문에 쉬운 일은 아니다.

Implicit Datasets

User가 간접적(Implicit)으로 favorite을 나타내는 데이터이다.
검색 기록, 시간 등의 Log가 그 예일 것이다. 자동으로 수집되는 부분이 많아 수집하는데 있어 장벽이 낮고 활용할 데이터의 양도 방대하다.

Watch out! Implicit Datasets

  1. No Negative Feedback
    유저가 입력한 정보가 없다면 그 이유를 정확히 알 수 없다.
  2. Inherently Noisy
    그 영화를 봤다고 좋아한다고만 볼 수 없다. 다른 이유가 있을 수 있다.
  3. The numerical value of implicit feedback indicates confidence
    한 번 본 영상보다 여러 번 오래 본 영상이 유저의 선호도가 높은 것일 수 있다.
  4. Implicit-feedback Recommender System의 평가는 적절한지 따져볼 것
    평점 데이터는 예측값과 실제값의 차이를 Mean Squared Error로 알 수 있다. 하지만 시청 시간, 클릭 수, 조회 기록등을 이용하는 경우 정답 값을 알려주기 어렵다. 따라서 implicit model의 경우 item의 availability나 반복되는 feeback 등을 고려해야 한다.

Ref) https://orill.tistory.com/entry/Explicit-vs-Implicit-Feedback-Datasets?category=1066301 [이제 며칠 후엔]

profile
Innovation is mine

0개의 댓글