오늘은 Fully Content-based RecSys 모델 강연을 듣고 내용을 정리해보았다.
학습 정리로 월~금 동안 매일
복습, 과제, 피어세션, 회고 정리했고 아래 링크 달았습니다.
- 250103 TIL #580 AI Tech #112 Graph-based Recommendation
- 250104 TIL #581 AI Tech #113 Recent Trend - Sequential Models
- 250106 TIL #582 AI Tech #114 Recent Trend - Content based
- 250107 TIL #583 AI Tech #115 Local Community
- 250108 TIL #584 AI Tech #116 Recent RecSys with LLM
- 250109 TIL #585 AI Tech #117 20주차 주간학습정리 / Content 모델의 중요성
급격한 변화가 없는 것이 트렌드.
CV, NLP에 비해서 딥러닝 도입 이후 크게 성능이 개선되지 않았다.
추천시스템은 더이상 발전 가능성이 없다.
기존의 모델로도 충분히 대처 가능한 쉬운 문제라서 더 개선의 여지가 없다.
CF만 봐도 단순 linear랑 딥러닝이 큰 차이가 없다.
추천시스템이 더 발전하려면 지금보다 더 큰 컴퓨팅 파워와 발전된 기술이 필요하다.
개선시키기에 아직 기술 발전이 부족하다.
CF쪽은 이미 충분히 개선되고 많은 시도들이 있었지만 CBF는 아직 발전이 미비하기 때문에 개선의 여지가 아직 매우 많다.
당장 영상쪽만 보더라도 영상을 멀티모달로 통째로 넣는다 하더라도 AI가 영상의 스토리, 시나리오 같은건 이해를 거의 못하고 장면의 특징 정도 밖에 catch하지 못한다.
AI가 사람처럼 영상을 이해하게 되면 데이터 안에서 정말 사람이 추천해주는 것과 같은 설명가능성이 늘어나게 될 것이다.
Data augmentation나 self-supervised 접근 방법이 데이터의 양과 질을 채워준다면 문제 해결에 도움이 될 것이다.
General Item Representation Learning for Cold-start Content
Recommendations (2024)
cold start 문제에 있어서는 CF 모델로는 대처가 불가능하다.
현재의 CBF 모델들은 데이터와 도메인에 특화되어있어 모든 데이터에서 우수한 general 모델이 없다.
이미지 출처 : 논문
이미지 출처 : 논문
CF로 유저 임베딩을 학습하고, 아이템 임베딩은 영상을 Transformer로 멀티모달 input을 받아 content-only로 임베딩을 생성.
기존 CBF는 장르 안에서는 구분이 모호했지만, content-only로 영상을 임베딩 시켜 장르 안에서도 구분이 가능해짐 (ex. 애니메이션 - 알라딘/신밧드)