[0606] TIL 40일차

nikevapormax·2022년 6월 6일

목록 보기

39/116

😂 Django Project

😭 Machine Learning part

google Colab에서 진행했던 유저 기반 협업 필터링과 아이템 기반 협업 필터링, 잠재 요인 협업 필터링을 pyCharm으로 옮겨오기 위해 여러가지 방법을 생각해 보았다.
저번처럼 model화를 시켜서 들고 와야 생각하면서 너무 막막해서 튜터님께 질문을 드렸고, 코드를 슬쩍 보시더니 굳이 모델화할 필요없다고 하셨다.
그렇다면 나에게 주어지는 선택지는 2개라고 생각한다.
- 함수화
- 클래스화
클래스로 만들어서 사용하면 진짜 너무 좋다고 생각한다. 계속 연습해야 겠다는 생각이 많이 드는 부분이고, 튜터님들의 코드 중 클래스로 작성되어 있는 것을 보면 왜 이런 생각을 못했지라고 느끼기 때문이다. 하지만 일단은 함수화에 초점을 두었다. (시간이 허락하고 내 지식이 허락한다면 리팩토링은 무조건 할 것이다.)
지금 우리의 프로젝트에서 내가 사용하고 싶은 필터링은 아이템 기반 협업 필터링과 잠재 요인 협업 필터링이다. 현재 잠재 요인 협업 필터링은 모듈 import에서 오류가 좀 있고, 구글링을 해보았으나 해결이 되지 않아 내일 질문을 드릴 생각이다.
우선적으로 아이템 기반 협업 필터링을 함수화하였다.
- 여기서 애를 좀 먹은 부분이 있다. 바로 영화 이름을 출력하는 것이다.
- 현재 해당 필터링의 초점은 코사인 유사도이다.
- 결과를 잘 구하고 단순히 movie_list를 출력하게 되면 코사인 유사도가 높은 영화별로 20가지가 출력된다. 이때는 영화이름이 index로 같이 나오게 된다.
- 처음에 Series 형태를 생각하지 못하고 단순히 리스트에서 값을 꺼낼 때처럼 출력하려 하다가 하지 못하고 구글링을 했다.
- 리턴값이 Series임을 깨닫고, index를 리턴값으로 주었고 영화의 이름을 20개 뽑을 수 있었다.

import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity

movies = pd.read_csv('movies.csv')
ratings = pd.read_csv('ratings.csv')

def item_based_filtering(movie):
    movie_ratings = pd.merge(ratings, movies, on='movieId')

    user_title = movie_ratings.pivot_table('rating', index='title', columns='userId')
    user_title = user_title.fillna(0)

    item_based_collab = cosine_similarity(user_title, user_title)
    item_based_collab = pd.DataFrame(item_based_collab, index=user_title.index, columns=user_title.index)

    # 주어질 영화 중 cosine-similarity 값이 가장 큰 순으로 20번째까지 변수에 저장
    movie_list = item_based_collab[movie].sort_values(ascending=False)[1:20]

    return movie_list.index

m = item_based_filtering('Dark Knight, The (2008)')
for i in m:
    print(i)

유저 기반 협업 필터링은 현재 내 계획에서는 쓰일 가능성이 없다고 생각하지만 혹시 이것을 쓰는 것이 정답일 수도 있어 함수화하는 김에 같이 진행해보았다.

import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity

movies = pd.read_csv('movies.csv')
ratings = pd.read_csv('ratings.csv')


def user_based_filtering(movie):
    # ratings와 movies를 movieId를 기준으로 조인한거라 생각하면 됨
    movie_ratings = pd.merge(ratings, movies, on='movieId')

    title_user = movie_ratings.pivot_table('rating', index='userId', columns='title')
    title_user = title_user.fillna(0)

    user_based_collab = cosine_similarity(title_user, title_user)
    user_based_collab = pd.DataFrame(user_based_collab, index=title_user.index, columns=title_user.index)

    chosen_user = user_based_collab[5].sort_values(ascending=False)[:10].index[1]
    result = title_user.query(f'userId == {chosen_user}').sort_values(ascending=False, by=chosen_user, axis=1)

    # 기준 유저인 5번 유저와 유사한 순서를 나타냄(아까 위에서 10명 맨 처음에 뽑은 그 값을 다시 뽑아서 리스트로 만든거임)
    user_index_list = user_based_collab[5].sort_values(ascending=False)[:10].index.tolist()
    print(f'기준 유저와 유사한 순서(맨 앞이 기준 유저) : {user_index_list}')
    # 이거는 위와 똑같은 데 순서가 아닌 가중치를 리스트화한거임
    user_weight_list = user_based_collab[5].sort_values(ascending=False)[:10].tolist()
    print(f'가중치 값 : {user_weight_list}')

    movie_title = movie
    weighted_sum, weighted_user = [], []

    # 0번은 자기 자신이니까 1번부터 10번까지 돌리는거야!
    for i in range(1, 10):
        value = title_user[movie_title][user_index_list[i]]
        if int(value) != 0:
            # 5번 유저랑 유사한 사람들이 단 평점에다가 그 사람들의 위에 있는 가중치를 곱한 값
            weighted_sum.append(title_user[movie_title][user_index_list[i]] * user_weight_list[i])
            # user_weight_list를 다시 한 번 만드는것과 같다.
            weighted_user.append(user_weight_list[i])

    print(weighted_sum)
    print(weighted_user)
    pred_rating = sum(weighted_sum) / sum(weighted_user)

    return pred_rating

# 5번 유저의 Batman Forever (1995) 평점 예측치
print(user_based_filtering("Batman Forever (1995)"))

nikevapormax

https://github.com/nikevapormax

이전 포스트

[0605] TIL 39일차

다음 포스트

[0606] TIL 40일차

TIL

😂 Django Project

😭 Machine Learning part

[0605] TIL 39일차

[0606] 거북이반 리트라이(1~6)

0개의 댓글