1. 추천 시스템
1) 협업 필터링 vs 콘텐츠 기반 필터링
| 협업 필터링 | 콘텐츠 기반 필터링 |
---|
이용 정보 | 사용자의 아이템 구매 이력 정보 | 아이템의 고유 정보를 바탕으로 한 아이템 사이의 유사성 |
주목 | 사용자와 아이템 사이의 관계성 | 아이템 자체의 속성 |
2) 과정
- 데이터 전처리
- pandas
- groupby: 열을 하나 선택해 해당 열에 있는 범주 별로 분류
- count와 함께 쓰면 범주 별로 수를 세줌
- median과 함께 쓰면 범주 별로 중앙값을 계산
- sort_values
- get
- Matrix Factorization
- 용량이 커짐: 들어보지 않은 아티스트에 대한 정보도 포함하기 때문에, sparse matrix 가 되어버림
- CSR Matrix: sparse한 matrix에서 0이 아닌 유효한 데이터로 채워지는 데이터의 값과 좌표 정보만을 이용해, 메모리 사용량은 최소화하면서도 sparse matrix와 동일한 행렬을 표현할 수 있도록 하는 데이터 구조
2. 회고
벡터 내적, matrix factorization처럼 수학적으로 부족한 부분이 있어서 완전한 이해는 어려웠던 노드였다. 하지만 추천 시스템이 전반적으로 어떤 식으로 이루어지는지 원리를 포괄적으로나마 확인할 수 있었다.