Cold Start(추천시스템)

샘2·2023년 1월 29일
3

콜드스타트가 무엇인지, 해결방안은 어떤 것이 있는지 정리하기 위해 포스팅합니다.

Cold Start란?

cold start는 프로그램측면에서 데이터가 없는 상태를 의미합니다.
그래서 추천시스템의 cold start는 새롭게 들어오거나 특정한 유저들의 데이터를 충분히 확보하지 못하여 유저에 적합한 추천을 하지 못하는 문제를 말합니다.

일반적으로 추천시스템은 유저 기반의 다양한 레퍼런스를 비교하며 추천을 진행하게 되며, 아이템과 사용자라는 기준으로 대부분 나뉘어집니다. 아이템 특성을 활용한 경우 컨텐츠 기반 추천(cotents-based filtering)이라고 하며, 사용자 특성을 활용한 경우 협업 필터링(Collaborative filtering)이라고 합니다.

주로 많이 활용되는 인터렉션 정보들은 사용자의 평점, 북마크, 구매, 좋아요, 페이지 방문 횟수 등 사용되며, 활용하는 알고리즘에 따라 달라질 수 있습니다.

Cold start 원인

cold start의 원인은 크게 3가지로 분류할 수 있습니다.

  1. New community
  • 새로운 커뮤니티란 스타트업 등 회사, 서비스등이 설립되고 운영되기 시작하는 단계로 생각하면 됩니다. 서비스의 시작으로 아직 유저가 존재하지 않은 상태가 되며, 위에서 언급한 인터렉션 정보들이 존재하지 않기 때문에 cold start문제가 발생합니다. 그래서 초창기 서비스는 주로 룰기반의 추천을 하며, 유저의 특성보다 상품의 특성을 초점에 맞추는 경우가 많습니다.
  1. New item
  • 새로운 아이템이 추가되는 경우 추천시스템의 종류에 따라 cold start문제가 조금 달라지기도 한다.

  • 협업필터링의 경우 유저의 인터렉션 정보를 활용하여 추천을 진행하게 된다. 인터렉션 정보로는 제품을 이용한 기록, 평점, 좋아요 등 유저의 평가나 행동을 나타내는 데이터이다.

  • 새로운 아이템은 유저들의 인터렉션 정보가 없거나 적은 양이 존재하게 되는 데 이를 기반으로 협업필터링 추천이 진행되면 좋지 않은 결과가 초래된다. 좋은 아이템이라도 유저의 인터렉션 정보가 없기 때문에 인기가 없는 아이템으로 판단하여 추천이 되지 않은 경우가 발생하기 때문이다. 이러한 경우를 인기있는 아이템이 극소수이기 때문에 Popularity bias 또는 Long tail graph라고 한다.

  • 컨텐츠 기반 필터링은 이러한 점에서 cold start문제에 비교적 영향을 적게 받는다. 컨텐츠 기반 필터링은 제품에 대한 유저의 인터렉션 정보를 기반으로 하지 않고 제품의 특징을 기반으로 유사한 아이템을 추천하는 알고리즘을 가지고 있기 때문이다. 그렇지만 컨텐츠 기반 필터링 또한 유저의 리뷰 같은 특징을 활용하였다면 cold start문제에 빠질 가능성이 있다.

  1. New user
  • 신규 유저의 경우 히스토리가 존재하지 않기 때문에 cold start문제가 발생된다. 그래서 보통 기업에서는 신규 유저들에게 초기 프로필을 작성하도록 선호도 파악 등 질문지를 활용하는 경우가 많다.

cold start 해결 방안

  1. 초기 프로필 작성
  • cold start의 본질적인 문제는 데이터가 부족한다는 점이다. 이를 해소하기 위해 신규 유저가 유입되는 경우, 정확한 추천을 위하여 초기 프로필을 작성하도록 하는 것이다. 필자는 토이프로젝트에서 전통주를 추천하기 위해 유저가 함께 먹는 안주를 선택하여 유저의 선호도를 자연스럽게 얻는 방법을 선택한 경험이 있다.
  1. 하이브리드 필터링
  • 하이브리드 필터링은 컨텐츠 기반 필터링과 협업필터링을 함께 사용하는 방법이다. 이것은 사용자 또는 제품들의 특징을 사용자가 중요하다고 인식하는 기준에 따라 가중치를 부여하는 방법이다. 영화를 예로 들면 출연 배우, 영화 감독에 더 가중치를 부여하여 동일한 출연 배우의 작품이나 영화 감독의 영화를 추천해주게 된다.

3.Differentiating Regularization weights

  • 이것은 하이브리드 필터링과 반대되는 개념으로, 아이템 또는 유저들과 연관된다고 도출된 잠재요인에 대해 제약을 두어 Regularization을 저용해 cold start문제를 해결하는 방법이다. 예를 들면 long tail graph 에서 나타는 인기있는 극소수의 아이템에는 가중치를 조금 두고 인기없거나 자주 활동하지 않는 유저들의 정보에는 가중치를 많이 주어 일반화하는 방법론이다.

4.feature mapping

  • feature mapping은 협업 기반 필터링의 잠재 요인 기반 필터링과 연관이 있다. 컨텐츠 정보와 협업 필터링 시 사용되는 인터렉션 정보를 결합하고 이를 머신러닝 기술을 활용해 해결하는 방법이다.
profile
부지런한 개발자가 되고싶은

0개의 댓글