Reference
추천 시스템은 사용자의 이전 상호작용 데이터를 기반으로 관심 있을 만한 항목을 추천하고, 사용자 피드백을 활용해 추천 성능을 최적화함함.
그런데 이때 추천 시스템에는 콜드 스타트 문제가 존재하며, 이는 주로 사용자 콜드 스타트와 아이템 콜드 스타트로 나뉨. (예를 들어, 사용자 평가 데이터를 활용한 추천 시스템에서는 신규 사용자나 아이템에 대한 데이터가 부족할 경우 적절한 추천을 제공하기 어렵고, 이를 콜드 스타트라고 함)
테이블 1은 콜드 스타트 문제의 예시를 보여줌. 이 매트릭스는 사용자들이 아이템에 대해 부여한 점수를 나타내며, 점수는 1부터 5까지의 정수로 표현됨. 각 점수는 사용자가 해당 아이템에 대해 매긴 평가를 의미하며, 사용자가 아이템을 평가하지 않은 경우는 ‘‘-’’로 표시됨.
Item 콜드 스타트
User 콜드 스타트
이 논문에서 다루고자 하는 것
Cold Start 를 해결하는 2가지 방식
사용자의 여러 도메인에서의 선호 데이터를 활용해 더 완전한 사용자 모델을 구축하고 추천 정확도를 높임.
크로스 도메인 추천 시나리오의 4가지 유형 (Cremonesi et al. [43])
크로스 도메인의 추천 작업
논문 (Article) | 주요 아이디어 (Main ideas) | 데이터셋 (Datasets) | 평가지표 (Evaluation indicators) | 장점 (Advantages) | 단점 (Disadvantages) |
---|---|---|---|---|---|
Jin et al. (2020) [45] | RACRec이라는 리뷰 기반 크로스 도메인 추천 알고리즘을 사용하여 완전한 사용자 콜드 스타트 문제를 해결. | Amazon 데이터셋 | AUC, RMSE | 전체 사용자 콜드 스타트 문제에 대한 효과적인 해결책 제공. | 콜드 스타트 외의 문제를 해결하는 데에는 성능이 낮음. |
Hanxin Wang et al. (2020) [46] | 온라인 쇼핑 및 광고 플랫폼에서 사용자 정보를 공유하는 모델을 통해 사용자 콜드 스타트 문제를 해결. | 광고 데이터셋, 온라인 쇼핑 데이터셋 | HR@K, NDCG@K | HR@K 및 NDCG@K에서 최상의 성능을 보임. | 실시간 고려가 없음. |
Zhao et al. (2020) [47] | 소스 도메인에서 타겟 도메인으로 사용자 선호도를 전이하여 사용자 콜드 스타트 문제를 해결하는 크로스 도메인 모델을 제안. | Amazon 데이터셋 | MSE | 모델의 강건성과 짧은 수렴 시간, 우수한 시간 효율성을 보임. | 실시간 고려가 없음. |
C. Te Li et al. (2018) [48] | 사용자의 평점을 고유값(eigenvalues)으로 사용하고 변수를 동일 공간에 매핑하여 크로스 도메인 추천을 달성하기 위해 부분 최소 제곱법(PLS)을 활용. | Epinions 데이터셋 | MAE, RMSE | 새로운 사용자에 대한 고급 결측 데이터 입력 방법과 짧은 모델 학습 시간. | 평점 행렬에 기본값을 인위적으로 삽입하면 부정확한 데이터 속성이 발생할 수 있으며 비선형 사용자 코멘트를 처리하지 못함. |
Zhu et al. (2019) [49] | 크로스 도메인 마이그레이션 메타 프레임워크(TMCDR)를 제안하여 크로스 도메인 추천의 일반화 문제를 완화하고 사용자 콜드 스타트 문제를 해결. | Amazon 데이터셋, Douban 데이터셋 | AUC, NDCG@K | 효율적이고 더 나은 호환성을 제공. | 실시간 고려가 없음. |
Feature Mapping Models
Similarity-Based Models
논문 (Article) | 주요 아이디어 (Main ideas) | 데이터셋 (Datasets) | 평가지표 (Evaluation indicators) | 장점 (Advantages) | 단점 (Disadvantages) |
---|---|---|---|---|---|
L. Briand et al. [31] | 소셜 메타데이터(예: 사용자의 친구 그룹 및 페이지 좋아요)를 활용하여 사용자 콜드 스타트 문제를 해결. | MovieLens 데이터셋, Yahoo! Webscope R4 데이터셋 | precision@k, recall@k, mAP@k | Precision 및 Recall 점수에서 최고의 성능. | 비선형 변형(non-linear variants) 및 실시간 처리 미고려. |
U. Yadav et al. [50] | 연결된 오픈 데이터, 협업 특징, 소셜 네트워크 기반 특징을 바탕으로 사용자 프로필을 생성하여 순수한 신규 사용자 콜드 스타트 문제를 해결. | MovieLens 데이터셋, Yahoo! Webscope R4 데이터셋 | time throughput, MAE, precision, recall, F-measure | 높은 처리량과 정확도. | 사용자 특징 축소(user feature downscaling) 및 실시간 처리가 고려되지 않음. |
Reshma et al. (2016) [51] | 소셜 네트워크 그래프(SNG) 특징과 사용자 평점 행렬(URM)을 결합하여 사용자 콜드 스타트 문제를 해결. | MovieLens 데이터셋, Synthetic Social Network 데이터셋 | MAE, Coverage | 낮은 MAE 값. | 데이터 신뢰성과 모델링 시간이 고려되지 않음. |
JJ. Li et al. (2021) [52] | 부가 정보(예: 사용자 속성, 소셜 관계 등)를 학습하여 신규 사용자에게 지식을 전이하고 콜드 스타트 및 롱테일 문제를 완화. | Flickr, Blog-Catalog, YouTube, Hetrec11-LastFM | precision@k, recall@k, mAP@k | 높은 정확도와 빠른 속도. | 다중 소스 부가 정보(multi-source side information) 및 실시간 처리가 고려되지 않음. |
Q. Gong et al. [53] | Twitter 및 Medium과 같은 온라인 소셜 네트워크에서 사용자 정보를 활용하여 사용자 콜드 스타트를 완화. | Medium, Twitter 데이터셋 | AUC | 높은 AUC 점수 및 일반화 용이. | Medium 및 Twitter 도메인만 사용되었으며 실시간 처리가 고려되지 않음. |
메타 러닝이란?
1.메트릭기반(metrics-based) 메타러닝
2.모델 기반 메타러닝
3.최적화 기반 메타러닝
논문 (Article) | 주요 아이디어 (Main ideas) | 데이터셋 (Datasets) | 평가지표 (Evaluation indicators) | 장점 (Advantages) | 단점 (Disadvantages) |
---|---|---|---|---|---|
Y. Lu et al. [54] | 하이퍼네트워크 기반 메타러닝 추천 시스템을 제안하여 사용자 콜드 스타트 문제를 해결. | MovieLens, BookCrossing | NDCG@N, Recall@N, Hit@N | 사용자 관심을 더 빠르게 포착하고 추천 성능 향상. | 폭발적인 파라미터 문제 미고려. |
Huang et al. [55] | 사용자 콜드 스타트 시퀀스 추천 문제를 해결하기 위한 메타러닝 기반 프레임워크 제안. | 1M, Last.fm, Amazon-Video | AUC, MAP, Hit@N, NDCG@N | 콜드 스타트와 비콜드 스타트 상황 모두에서 더 나은 성능을 보이며, 새로운 작업에 대한 일반화 가능성 제공. | 실시간 처리 미고려. |
Jiang, F et al. [56] | 메타러닝 기반 적응형 추천 모델을 제안하여 사용자 콜드 스타트 상황에서 메타러닝 모델의 성능을 향상. | MovieLens, Yelp | MAE, RMSE, nDCG@N | MAE 및 RMSE 값이 더 작고, nDCG@N 값이 더 큼. | 실시간 고려 없음. |
G. Wang et al. [57] | 메타 전환 학습 프레임워크를 기반으로 사용자 선호 패턴의 동적 변화를 향상. | Electronics, MovieLens-25M, VOD | MRR, Hit@N, NDCG@N | 높은 정확도. | 강건성이 부족함. |
M. Dong et al. [58] | 이전 학습 데이터를 활용하여 사용자 콜드 스타트 문제를 해결하는 특화된 특징 기반 메타러닝 모델 제안. | MovieLens-1M, BookCrossing | MAE, NDCG@N, DCG@N | 사용자 콜드 스타트 문제 해결에 좋은 성능 및 빠른 테스트 속도. | 추가 정보가 없을 때 성능 저하, 학습 속도 낮음. |
S. Liu et al. [59] | 메타러닝과 주제 메커니즘을 결합하여 사용자 콜드 스타트 문제를 완화. | MovieLens-1M, BookCrossing | MAE, RMSE | 적용 가능한 예제를 통해 사용자 콜드 스타트 문제를 해결하는 좋은 방법 제공. | 정보 제공 없이 일반화 논의 부족. |
J. Misztal-Radecka et al. [60] | 사용자와 신규 아이템 보정을 위한 메타-User2Vec 접근법 제안. | MovieLens, DeskDrop | NDCG@N | 잠재적인 특징 고려, 구현 용이. | 다중 데이터 융합 미고려. |
Y. Shen et al. [61] | 클릭 예측 정확도를 높이고 사용자 상호작용 데이터를 빠르게 학습하며 사용자 콜드 스타트 문제를 완화하는 메타러닝 모델 제안. | MovieLens, Taobao, Taobao RealImp | Logloss, AUC | 높은 정확도, 강건성, 짧은 학습 시간. | 다중 데이터 융합 미고려. |
H. Lee et al. [62] | 사용자 상호작용 부족 및 선호 정보로 인해 발생하는 사용자 콜드 스타트 문제를 완화하기 위한 메타러닝 기반 추천 모델 제안. | MovieLens, BookCrossing | MAE, NDCG | 보다 정확한 데이터 구분 및 사용자 선호 필요. | 다중 데이터 융합 미고려. |
X. Lin et al. [63] | 메타러닝 추천기를 활용해 사용자 선호도를 계산하는 새로운 작업 적응 메커니즘 제안. | MovieLens, Last.FM3, Gowalla | Precision@N, NDCG@N, MAP@N | 높은 정밀도 및 적합성. | 다중 데이터 융합 미고려. |
T. Wei et al. [64] | MetaCF라는 메타러닝 기반 추천 시스템을 제안하여 서브그래프 샘플링을 사용하여 학습. | Amazon-Electronics, Kindle, LastFM | HR@10, NDCG@10 | 소수의 상호작용 데이터만으로 빠르게 신규 추천에 적응 가능. | 낮은 해석 가능성. |
K. P. Neupane et al. [65] | 메타러닝과 증거 기반 추론을 통합하여 불확실성을 완화한 사용자 콜드 스타트 추천 시스템 제안. | MovieLens, BookCrossing, Netflix, Last.FM | RMSE, NDCG | 사용자 별 희소 데이터에서 높은 성능 제공. | 낮은 해석 가능성 및 다중 데이터 융합 미고려. |
H. Bharadwaj [66] | 사용자 및 항목 ID를 활용하고 평점을 사용하여 사용자 콜드 스타트 문제를 해결하는 메타러닝 모델 제안. | MovieLens, Netflix, MyFitnessPal | Precision@k, AUC, MRR | 강건성, 빠른 학습, 높은 정확도. | 낮은 해석 가능성, 실시간 처리 미고려. |
H. Wang et al. [67] | MetaCF 및 Reptile을 통합하여 사용자 콜드 스타트 문제를 해결하는 ML2E 알고리즘 제안. | MovieLens-1M, BookCrossing | Logloss, AUC | 사용자 콜드 스타트 문제에 대한 낮은 로그 손실, 일반화 가능성 높음. | 낮은 해석 가능성. |
딥러닝 알고리즘
논문 (Article) | 주요 아이디어 (Main ideas) | 데이터셋 (Datasets) | 평가지표 (Evaluation indicators) | 장점 (Advantages) | 단점 (Disadvantages) |
---|---|---|---|---|---|
L. Briand et al. [32] | 이질적인 정보 소스를 기반으로 사용자 클러스터링과 딥 뉴럴 네트워크 아키텍처를 활용해 사용자 콜드 스타트 문제 해결. | Deezer 데이터셋 | Precision@K, Recall@K, NDCG@K | 높은 추천 정확도, 온라인 및 오프라인 테스트 가능, 실시간 적용 가능. | 낮은 해석 가능성. |
R. Mondal et al. [33] | 협업 필터링 추천 시스템에서 콜드 스타트 문제를 해결하기 위한 딥 뉴럴 네트워크 기반 모델 제안. | MovieLens, Amazon, Douban 데이터셋 | MSE, RMS, MAE | 더 높은 정확도 제공. | 낮은 해석 가능성. |
Y. Kumar et al. [34] | 딥러닝 알고리즘을 사용해 콘텐츠 기반 추천을 제공하고 콜드 스타트 문제 완화. | TV 쇼, 영화 데이터셋 | Recall@K, Hit@K | 높은 정확도와 강건성 제공. | 낮은 해석 가능성. |
C. C. Chen et al. [35] | 추가적인 사용자 정보를 사용하지 않고 새로운 사용자 콜드 스타트 문제를 해결하기 위한 GAN 기반 추천 시스템 (ColdGAN) 제안. | MovieLens-1M, Amazon Gift Cards, Goodreads, Book Reviews | Precision@K, Recall@K, F1@K, NDCG@K | 높은 정확도 제공. | 낮은 해석 가능성. |
B. Hao et al. [36] | GNN과 Transformer 인코더를 사용해 사용자와 아이템 간의 단기 및 장기 의존성을 해결하며 콜드 스타트 문제를 해결. | MovieLens-1M, MOOCs, Gowalla 데이터셋 | Recall@K, NDCG@K | 높은 정확도와 강건성 제공. | 낮은 해석 가능성. |
D. Cai et al. [37] | 사용자 속성의 희소성을 완화하기 위해 유도적 이질 그래프 신경망 모델을 제안. | Tiktok, Kwai, MovieLens 데이터셋 | NDCG@K, Recall@K, Precision@K, AUC | 높은 품질의 사용자 표현 생성, 다중 모달 데이터 처리 가능. | 낮은 해석 가능성, 긴 학습 시간. |
B. Hao et al. [38] | GNN 기반으로 사용자 콜드 스타트 문제 해결을 위한 사용자 표현 학습. | MovieLens, MOOCs, Last.fm 데이터셋 | Recall, NDCG | 좋은 일반화 능력과 높은 정확도 제공. | 낮은 해석 가능성. |
T. Qian et al. [39] | 속성 매핑과 뉴럴 매핑을 활용해 엄격한 콜드 스타트 문제를 해결하기 위한 추천 시스템 제안. | MovieLens, Yelp 데이터셋 | RMSE, MAE | 모델이 안정적이고 학습이 용이하며, 콜드 및 웜 스타트 상황에서 높은 정확도 제공. | 낮은 해석 가능성. |
논문 (Article) | 주요 아이디어 (Main ideas) | 데이터셋 (Datasets) | 평가지표 (Evaluation indicators) | 장점 (Advantages) | 단점 (Disadvantages) |
---|---|---|---|---|---|
T. Zhou et al. [68] | 동형 암호화 기반의 다자간 보안 계산을 통해 다자간 정보를 결합하여 사용자 추천을 수행하는 추천 시스템 제안. | Epinion, Hetrec11, FilmTrust | RMSE | 사용자 프라이버시 보호 및 좋은 일반화 성능 제공. | 다중 모달 데이터에 적용되지 않음, 순수 콜드 스타트 문제 해결 어려움. |
S. Natarajan et al. [69] | 크로스 도메인 의미 연관성을 기반으로 한 행렬 분해 모델을 사용하여 협업 필터링 추천 시스템에서 사용자 콜드 스타트 문제를 해결. | Facebook 데이터셋 | MAP, MAE, RMSE | 높은 정확도 제공. | 다중 모달 데이터에 적용되지 않음, 순수 콜드 스타트 문제 해결 어려움. |
Lin, Y. et al. [70] | 사용자 콜드 스타트 문제를 해결하기 위해 연합 행렬 분해(Federated Matrix Factorization) 프레임워크를 제안. | Douban, Hetrec-movielens, MovieLens1M, Ciao | MAE, MSE | 평점 예측 정확도 향상. | 순수 콜드 스타트 문제 해결 어려움. |
H. H. Chen et al. [71] | 사용자 및 아이템에 대한 잠재 요인(라틴 팩터)의 정규화 가중치를 할당하여 사용자 콜드 스타트 문제를 해결. | FilmTrust, Yahoo! Movies, Amazon Musical Instruments (AMI) | RMSE, MAE | 롱테일 문제와 사용자 데이터 희소성 문제를 더 높은 정확도로 해결 가능. | 다중 모달 데이터에 적용되지 않음, 순수 콜드 스타트 문제 해결 어려움. |
Collaborative Filtering vs Content-based Filtering
Collaborative Filtering
논문 (Article) | 주요 아이디어 (Main ideas) | 데이터셋 (Datasets) | 평가지표 (Evaluation indicators) | 장점 (Advantages) | 단점 (Disadvantages) |
---|---|---|---|---|---|
Z. Zhang et al. [73] | 바이파티트 네트워크(bipartite network)를 활용하여 새로운 사용자 콜드 스타트 문제를 해결하는 추천 방법 제안. | MovieLens10M, Netflix | Precision, Recall | 높은 정확도와 추천 다양성 제공. | 지역 최적화(local optimality)에 빠질 가능성이 있음. |
D. K. Chae et al. [74] | 가상 사용자와 아이템의 표현을 생성하여 평점 행렬에 추가 행과 열로 사용하고, 이를 통해 사용자 콜드 스타트 문제 해결. | Movielens100K, Movielens1M, Watcha, CiaoDVD | nDCG, MRR | 높은 정확도, 빠른 모델 학습. | 과거 행동에 과도하게 의존하며, 순수 콜드 스타트 문제 해결이 어려움. |
T. Duricic et al. [75] | 신뢰 네트워크를 사용해 유사도 행렬을 생성하고, 이를 기반으로 k개의 가장 가까운 이웃을 선택하여 아이템 추천. | Epinions | nDCG, Precision, Recall | 높은 정확도. | 과거 행동에 과도하게 의존하며, 순수 콜드 스타트 문제 해결이 어려움. |
X. Chao et al. [76] | 협업 필터링(CF) 모델을 사용해 과거 사용자 평점 데이터를 기반으로 리더 후보를 선택하고, 이 리더들이 신규 사용자에게 상품을 추천. | MovieLens | RMSE | RMSE 값 감소. | 다중 데이터 융합 미고려, 시간 시퀀스(time series) 미고려. |
N. F. Al-Bakri et al. [77] | 사용자 리뷰와 퍼지 진위(fuzzy truthfulness) 정보를 결합하여 사용자 콜드 스타트 문제 해결을 위한 퍼지 유사도 메트릭 공식을 제안. | MovieLens | Similarity Matrices | 높은 정확도. | 과거 행동에 과도하게 의존하며, 순수 콜드 스타트 문제 해결이 어려움. |
A. Zahid et al. [78] | 협업 필터링(CF)과 행렬 분해(MF) 기법을 결합하여 정규화 기법을 사용, 추천 시스템의 사용자 콜드 스타트 문제 해결. | MovieLens, GroupLens | MAE, RMSE, NMAE, Rank Accuracy | 높은 정확도와 순수 콜드 스타트 문제에서의 좋은 성능 제공. | 과거 행동에 과도하게 의존. |
연구자 | 접근법/모델 | 주요 아이디어 | 특징 및 성과 |
---|---|---|---|
Kannout et al. [40] | FPRS (Frequent Pattern Mining Framework) | 신규 사용자와 아이템의 콜드 스타트 문제를 해결하기 위해 빈번하게 발생하는 아이템 집합과 콘텐츠 기반 전략을 결합한 추천 시스템 프레임워크를 제안하며 실증 연구를 통해 방법의 효능을 확인. | 빈번한 패턴 탐지와 콘텐츠 기반 전략 결합으로 추천 성능 개선. |
Chia et al. [41] | TF-IDF 텍스트 마이닝 기법 | 데이터 필터링과 정보 검색을 위해 TF-IDF 기반 텍스트 마이닝 기술을 활용하여 콘텐츠 기반 추천의 효율성을 증대. | 텍스트 마이닝으로 콘텐츠 필터링 정확도 향상. |
Li et al. [42] | Cold-Transformer | 특징 분포의 변화를 고려하기 위해 문맥 기반 적응 임베딩(Context-based Adaptive Embedding)을 생성하며, 신규 사용자의 임베딩을 기존 사용자와 유사한 "핫 상태"로 변환해 관련 사용자 선호도를 반영. | 문맥 적응 임베딩으로 신규 사용자와 기존 사용자 간의 격차 완화. |
데이터 기반 접근 방식
방법론 기반 접근 방식
콜드 스타트 vs 데이터 희소성 문제
콜드 스타트 모델 평가