추천시스템에 대한 전반적 시사

ChanP·2022년 7월 5일
0
post-thumbnail

추천시스템

  • 정보의 바다에서 헤매지 않게끔 폭을 좁혀주는 서비스

컴퓨터와 휴대폰 없이 살아갈 수 없는 시대에 맞게 플랫폼 또한 진화를 거듭해 왔다.

그 결과로 플랫폼(유튜브, 쿠팡 등) 없이는 살아갈 수 없는 현재가 되었으며, 폭증한 유저들이 생성한 데이터는 "추천시스템"이라는 서비스로 탄생하였다.

그리고 우리의 결정에 도움을 주는 서비스로 자리를 잡았기에, 아래 사진과 같이 원리에 대한 궁금증이 증폭되었다.

이러한 추천 시스템에 대한 전반적인 호기심을 해결해보자.


1. 추천시스템의 탄생

웹서비스의 탄생 이후 시간과 장소에 구애받지 않는 컨텐츠 소비가 가능해졌으나, 만족도가 높다고 보기엔 무리가 있었다.
(몸이 편해졌으나 그것마저 익숙해져 당연시 된 것.)

이 "만족도"라는 주관적이며 복합적인 감정을 정복하기 위해, 공통점을 찾아냈으니 그것은 바로 "시간"

정보의 다양화를 넘어 범람이라고 일컬을 만큼 선택지가 많아졌기에 탐색비용(시간)이 증가하는 부작용이 초래되었으니, 결과적으로 의사결정 난이도가 상승하였다는 것을 캐치한 것이다.

"고객의 관심분야를 한정해 정보의 질은 챙기되, 선택지의 폭을 줄인다."

는 시각으로 접근한 시스템이 탄생하게 되었고 그 목적이 달성되어 현재의 추천시스템이 되었다.

메뉴가 많은 식당은 주문이 오래걸리니 메뉴를 간소화해주는 일종의 컨설팅 역할
(취향저격 필터링)


2. 추천알고리즘 종류

  • 추천시스템을 구성하는 대중적인 알고리즘의 종류와 원리

1) 컨텐츠 기반 추천 알고리즘(Contents-based)

  • 사용자가 관심있는 제품을 파악하고 유사한 제품 추천

https://rpubs.com/ehahm/627319

사용자가 '스파이더맨'을 시청한 이력이 있다면, 이력을 반영하여 히어로 액션물인 '토르'를 추천하는 방식

  • 실생활 예시
    온라인 쇼핑몰에서 게이밍 헤드셋을 검색한 결과, 유사한 상품들이 출력

2) 협업 필터링 (Colaborative Filtering)

  • 사용자와 관심사가 유사한 타 사용자들이 관심있는 아이템을 추천

https://rpubs.com/ehahm/627319

사용자가 '스파이더맨'을 시청한 이력이 있다면, 이력을 반영하여 취향이 비슷한 유저들이 시청한 '어벤저스2'를 추천하는 방식

  • 실생활 예시
    온라인 쇼핑몰에서 게이밍 헤드셋을 검색한 결과, 게이밍 제품에 관심도를 가진 사람들이 구매한 제품을 추천

3) 맥락기반 추천(Context-based)

  • 사용자의 관심도는 물론, 시간이나 위치 정보를 추가활용하여 적합한 제품을 추천

"사용자가 술을 좋아한다고 해서, 시도때도 없이 추천해선 안된다."란 것을 인지하여 낮에는 카페를, 밤에는 바를 추천하는 상호작용형 추천

유저-상품 간 상호작용을 넘어 유저-상품-시간(장소)까지 고려한 추천방식


4)커뮤니티기반 추천(Community-based)

  • 사용자의 친구의 친구 같이 형성된 관계에 기초한 추천방법

https://www.researchgate.net/figure/An-example-of-community-influence-of-users-in-social-networks-There-are-four-communities_fig1_335497815

u와 v는 친구사이기 때문에, 친구의 친구목록을 통해 알고있던 사람을 찾을수도, 새로운 인연이 만들어 질수도 있는 추천

  • 실생활 예시
    SNS 플랫폼 내에서 함께 아는 친구가 있는지, 같은 커뮤니티에 속하는지 등을 참고하여 관계기반 추천

5) 지식기반 추천(Knowledge-based)

  • 특정 도메인 지식을 바탕으로 제품의 특징을 한정하며 추천


패밀리카로 활용할 조용하고 힘좋은 4000만원이하 연비 13km/L이상의 차량을 사고싶다는 조건을 입력받아 한정된 추천

  • 실생활 예시
https://www.hyundai.com/kr/ko/e/vehicles/explorer/base

사용자의 니즈를 입력받아 해결책과 협의점을 찾아 추천하는 사례기반 추천으로, 해당 도메인에 대한 이해(차 구매시 주요지표가 무엇인가?)를 바탕으로 설계해야한다.

자주 구매하지 않아 데이터가 적은 아이템에 효과적_부동산,자동차,명품 등

3. 추천시스템의 한계

1) 확장성(Scalability)

  • 실제 서비스는 학습에 국한되지 않은 다양한 종류의 데이터

    학습 또는 분석에 사용한 데이터와 실전 데이터가 다를 가능성이 높다. 쇼핑몰 플랫폼을 예시로 들어보겠다. 고객들이 최근에 많이 구매한 제품을 학습용 데이터로 사용했다면 당장은 들어맞을 수 있으나 트렌드가 바뀌었을때 이를 반영하지 못하고 한물 간 추천이 되어버린다.

    이를 해소하기 위해선 매번 모델을 다르게 생성해야 하는데, 트렌드는 빠르게 변화하기 때문에, 생성도중 또 다른 트렌드를 맞이할 수 있다.

    즉, 모든 경우의수를 반영하지 못한다.

2) 낮은 능동성(Low Proactive)

  • 특별한 요청이 없어도 사전에 먼저 제공하는 것이 불가

    사용자가 새로운 상품에 대한 갈증을 느끼고 있음을 알아차리고, 끈임없이 좋은 정보를 추천해줘서 플랫폼을 떠나지 않게 하는것이 가장 이상적일 것이다.
    다만, "열 길 물속은 알아도 한 길 사람속은 모른다."란 말이 있듯 구체적으로 어떤 새로운 상품을 원하는지 명령대로 움직이는 알고리즘이 알 방법이 없다.
    결국 인간이 현 추천시스템에도 익숙함을 느낀다면 능동성이 장착된 추천시스템 정도는 등장해야 호기심을 느낄 것이기에 개인적으로 가장 큰 숙제라고 보여진다.
    (옷장에 옷은 많지만 내가입을 옷은 없고, 넷플릭스에 볼건 많지만 보고싶은건 없는 느낌을 해결하긴 어려울 것 같다.)

3) Cold-Start

  • 데이터가 부족할 때 낮은 정확도의 추천

    사용자가 플랫폼을 이용한 기간이 짧거나, 특정 제품군이 압도적인 우세를 보인다면 판단할 수 있는 데이터 또한 많지 않다는 얘기가 된다. 이로인해 추천의 정확도는 낮아지게 되며, 데이터가 쌓이기도 전에 사용자가 플랫폼을 떠날 가능성이 발생한다.
    휴대폰을 구매할때 애플과 삼성은 여러 유저들이 택했지만, 샤오미는 선택하지 않았다고 가정 해 보겠다. 애플과 삼성제품에 대한 데이터는 존재하지만, 샤오미를 선택한 기록은 없기 때문에, 샤오미를 추천해 줄 수 없는 상황을 마주한다.
    사용자가 애플, 삼성제품을 원하지 않는다면 다른 플랫폼으로 이동할 수 있다.

    이를 해결하기 위해 일정 수준의 데이터를 확보하기 전까진 데이터 의존도가 적은 추천시스템(하나의 상품만 검색했어도 연관상품을 알려주는 "컨텐츠 기반" 등)이 작동할 수 있도록 접목하는 Hybrid 추천시스템을 설계하기도 한다.

4) 개인정보 보호(Privacy preserving)

  • 추천시스템은 편리한데, 관찰당하는 느낌은 싫다.

    개인화된 추천시스템을 위해선 사용자 파악이 우선이기에 개인정보가 가장 정확한 데이터이지만 윤리적인 문제에 부딛히게 된다.

    거주지 : 강원도 XX읍
    출생년도 : 1992.XX.XX
    육아유무 : O

    위 개인정보 만으로
    "시골에서 아이를 양육하는 30대 초반 엄마"
    라는 특정이 가능하고
    "편의시설이 적은 시골에 거주-대용량제품 추천", "육아제품 추천",
    "30대가 선호하며 집에서 할 수 있는 취미용품 추천"
    처럼 처음부터 구체적인 추천이 가능한데, 윤리적 문제로 수집이나 사용이 어렵다면 난항을 겪을것으로 예상된다.

    사용자의 성향을 파악할 수 있는 충분한 시간이 주어진다면 대체가 가능할 수 있으나, 성향을 파악하는 동안 만족도가 낮은 추천이 이뤄질텐데 사용자가 충성고객으로 남아있을지는 미지수다.

    편의성과 보안성의 협의점을 찾아 제도적으로 접근해야 할 것이다.

5) 부족한 자원(Starvation and Diversity)

  • 모든걸 반영하기엔 시스템이 무거워

    사용자 또는 제품에 대한 세부 카테고리를 반영할 수록 추천의 정확도는 높아지게 된다. 하지만 따져보는게 많을수록 결과도출이 늦어지기에, 정확도와 시간효율성의 협의점을 찾을 수 밖에 없다.

    모든 데이터를 활용해 12시간 뒤에 정확한 추천을 진행하는 모델과,
    정확도는 낮을지언정 빠르게 여러번의 추천을 진행하는 모델이 있다면 후자를 선택하듯 협의점은 고객유치에 중요한 지표이다.

    컴퓨팅 파워가 향상되어 세부 카테고리를 반영해 정확도가 높은 추천이 같은 시간에 이뤄진다고 하면 금상첨화일 것이므로, 컴퓨터 성능에 대한 발전이 요구된다.

4. 추천시스템의 미래

  • 추천시스템의 성능이 해당 도메인을 지배한다.

    "추천시스템"은 성공할 수 밖에 없었다.
    구조적으로 보았을때, 고객이 쌓은 데이터는 추천시스템에 반영이 되어 성능이 좋아지며, 더 많은 고객을 유치하고 더 많은 데이터가 되는 선순환이 이뤄진다.
    뿐만아니라 고객유치로 인해 매출이 늘어나 재투자 비용이 증가한다.

    즉, 추천시스템이 가진 파급력은 굉장하며, 이는 좋은 모델을 선점하기 위한 기업간 경쟁이 발전을 수반했다는 증거이다.

    경쟁의 끝에선 압도적 추천성능을 갖춘 플랫폼이 탄생해 해당 도메인을 지배할 것이라 보아 독과점 문제가 두렵지만, 한편으론 인간의 끝없는 욕구를 어떻게 만족시켜줄수 있을지 기대된다.

profile
암묵지를 형식지로 풀어내는 데이터사이언티스트

0개의 댓글