Explicit Datasets
Imagae classification에 MNIST, Recommend system에는 Movielens Data를 사용한다.
평점 기록처럼 유저가 직접(Explicit)표현한 Data를 Explicit Data라 한다.
이 데이터는 유저의 Like&Hate를 정확히 알 수 있지만, 이 데이터를 수집하는 것은 장벽이 높기때문에 쉬운 일은 아니다.
Implicit Datasets
User가 간접적(Implicit)으로 favorite을 나타내는 데이터이다.
검색 기록, 시간 등의 Log가 그 예일 것이다. 자동으로 수집되는 부분이 많아 수집하는데 있어 장벽이 낮고 활용할 데이터의 양도 방대하다.
Watch out! Implicit Datasets
- No Negative Feedback
유저가 입력한 정보가 없다면 그 이유를 정확히 알 수 없다.
- Inherently Noisy
그 영화를 봤다고 좋아한다고만 볼 수 없다. 다른 이유가 있을 수 있다.
- The numerical value of implicit feedback indicates confidence
한 번 본 영상보다 여러 번 오래 본 영상이 유저의 선호도가 높은 것일 수 있다.
- Implicit-feedback Recommender System의 평가는 적절한지 따져볼 것
평점 데이터는 예측값과 실제값의 차이를 Mean Squared Error로 알 수 있다. 하지만 시청 시간, 클릭 수, 조회 기록등을 이용하는 경우 정답 값을 알려주기 어렵다. 따라서 implicit model의 경우 item의 availability나 반복되는 feeback 등을 고려해야 한다.
Ref) https://orill.tistory.com/entry/Explicit-vs-Implicit-Feedback-Datasets?category=1066301 [이제 며칠 후엔]