DB mining 및 Automated Recommendation System 구현을 목적으로 한다.
본 프로젝트는 크게 세 부분으로 나뉘며 Python과 MySQL을 사용하여 구현하여야 한다.1. 의사결정나무
2. 연관분석
3. 추천시스템
추가적으로 VIP
사용자들의 정보를 담고 있는 vip_list.csv를 불러와서 이 사이트의 VIP
선정 기준을 파악해보는 것이 목표였다.
# TODO: Requirement 1-2. WRITE MYSQL QUERY AND EXECUTE. SAVE to .csv file
fopen = open('DMA_project2_team%02d_part1.csv' % team, 'w', encoding='utf-8')
cursor.execute('''
SELECT A.user_id, A.vip, A.user_yelping_since_year, IFNULL(user_review_counts_no_null.user_review_counts, 0) AS user_review_counts,
A.user_fans, A.user_votes_funny, A.user_votes_useful, A.user_votes_cool, A.user_average_stars, IFNULL(A.user_tip_counts, 0) AS user_tip_counts
FROM
(SELECT users.user_id, users.vip, users.user_yelping_since_year, users.user_fans, users.user_votes_funny, users.user_votes_useful, users.user_votes_cool, users.user_average_stars,
user_tip_counts_no_null.user_tip_counts
FROM DMA_team07.users
LEFT JOIN (SELECT users.user_id, COUNT(*) AS user_tip_counts
FROM DMA_team07.users
JOIN DMA_team07.tips
ON users.user_id = tips.user_id
GROUP BY users.user_id) AS user_tip_counts_no_null
ON users.user_id = user_tip_counts_no_null.user_id) AS A
LEFT JOIN (SELECT users.user_id, COUNT(*) AS user_review_counts
FROM DMA_team07.users
JOIN DMA_team07.reviews
ON users.user_id = reviews.user_id
GROUP BY users.user_id) AS user_review_counts_no_null
ON A.user_id = user_review_counts_no_null.user_id;
''')
fopen.write('user_id,vip_list,user_yelping_since_year,user_review_counts,user_fans,user_votes_funny,user_votes_useful,user_votes_cool,user_average_stars,user_tip_counts')
fopen.write('\n')
for row in cursor:
for j in range(len(row)):
fopen.write('{}'.format(row[j]))
if j != len(row)-1:
fopen.write(',')
fopen.write('\n')
fopen.close()
print('1-2 complete!')
users
테이블에 있는 user_id
에 대하여, 이 user_id
가 vip_list.csv
에 나와있는 user_id
에 속한다면 1의 값을 가지고, 그렇지 않으면 0의 값을 갖는 vip 어트리뷰트
를 users테이블
에 추가했다. 그 후 tips
와 reviews
테이블을 user_id를 기준으로 left join
시킨다.
이로써 만들어진 테이블에 존재하는 어트리뷰트들은 다음과 같다.
- user_id: 고객의 id
- vip_list: 고객의 VIP 선정 여부
- user_yelping_since_year: 고객이 사이트 A를 시작한 해
- user_review_counts: 고객이 작성한 리뷰 개수
- user_fans: 고객을 좋아하는 다른 고객 수
- user_votes_funny: 고객이 재밌다고 투표한 개수
- user_votes_useful: 고객이 유용하다고 투표한 개수
- user_votes_cool: 고객이 멋지다고 투표한 개수
- user_average_stars: 고객이 준 별점의 평균
- user_tip_counts : 고객이 작성한 팁의 좋아요 개수 합
vip여부와 이와 관련있다고 여겨지는 여러 어트리뷰트들을 모두 한테이블로 정리 한 후 Tree.DecisionTreeClassifier
함수를 통해 gini
와 entropy
를 기준으로 하는 의사결정나무를 만들었다.
entropy
를 기준으로 하는 의사결정나무
gini
를 기준으로 하는 의사결정나무
normal
이 일반 user
, best
가 vip user
이다.
min_samples_leaf
는 8, max_depth
는 4로 주었다.
mean accuracy
는 0.9745
가 나왔다.
연관분석에서는 리뷰 수, 업체 수, 별점을 이용한 점수로 영향력 있는 상위 30개의 category
에 대해 진행한다. 이때 점수는 다음과 같은 기준을 도입한다.
- score: ctgavg_stars * (num_reviews / num business) 의 값
- num_business: 해당 카테고리에 해당하는 업체 수
- num_reviews: 해당 카테고리에 해당하는 업체의 리뷰 수 합
- ctg_avg_stars: 해당 카테고리에 해당하는 업체의 평균 별점
MySQL
로score
를 계산하기 위한 num_business
, num_reviews
, ctg_avg_stars
를 기존의 테이블에서 계산해 내는 것이 관건이었다. 수많은 join
과... group by
를 사용하여 정확히 해당 카테고리의 업체수와 리뷰 수 합, 평균 별점을 계산해냈어야 했다.
다음과 같은 rating 기준을 설정하여 각 User가 category들에 대해서 얼마나 관심을 가지는지 비교하고자 하였다. rating을 전혀하지 않은 사업체만이 포함된 카테고리는 0점이 아닌 rating을 하지 않은 것으로 처리하였다.
Rating Equation
rating(user, category) = 2 * (user가 해당 category에 해당하는 사업체 중 4점 이상으로 리뷰한 업체 개수) + min(해당 user가 리뷰한 업체 중 해당 카테고리에 포함된 개수, 5)
예를 들어, a라는 사용자가 category_b에 해당하는 business 10개에 대해 이용 이력이 존재하고 해당 카테고리에 해당하는 사업체 중 사용자가 4점이상을 준 리뷰가 2건이라면 점이라면 rating(user_a, category_b) = 2 * 2 + min(10,5) 로 해당 category에 9이라는 관심 정도를 가진 것이다.
1)에서 설정한 상위 30개의 카테고리에 대해서 user들의 category rating 점수를 view
로 생성하였으며 그 중에서도 이런 rating을 10개 이상 갖고 있는 user
들을 따로 모아 partial_user_category_rating view
를 생성하였다.
각 user는 연관 분석의 transaction 역할을, 각 category는 연관분석의 item 역할을 하도록 vertical table 형태의 partial_user_category_rating을 horizontal table로 만든 결과를 pandas의 DataFrame으로 저장하였다.
그 후 다음의 조건을 만족하는 frequent itemset을 만들고 연관 분석을 수행하였다.
- Frequent itemset의 최소 support: 0.15
- 연관분석 metric:lift(lift>=3 인 것들을 출력)
우선 African, Ethiopian, American, Vegetarian, Vegan이 계속적으로 등장한다. 이는 support의 최소값을 0.15로 다소 높은 값을 설정함으로써 일단 자주 등장하는 카테고리 여야 rule에 선정될 수 있기 때문이라고 해석된다. African과 Ethiopian / Vegetarian과 Vegan는 쉽게 이해할 수 있는 rule이다. lift와 support를 기준으로 선정하였기 때문에 단순히 순서만 바뀌어 있는 룰들이 많다. 다만 confidence가 대부분 다 높아 한 카테고 리가 다른 카테고리를 포함하는 상황은 적고 서로 긴밀하게 연결되어 있음을 알 수 있 다. 또한 African 혹은 Ethiopian카테고리를 이용하는 사람은 Vegan이거나 Vegetarian 카테고리를 이용할 가능성이 높으며, 이 반대도 성립한다. 그에 비해 American은 산발적 으로 rule에 나타나는 것처럼 보인다. American이 등장하는 rule을 보면 African이나 Ethiopian 카테고리를 이용하는 사람은 American 카테고리 또한 이용할 가능성이 높다 는 것을 알 수 있다. leverage는 모두 0.1보다 높고, conviction도 모두 1보다 높은 것으 로 보아 모든 rule이 상당히 독립적이지 않고 강한 rule들이라는 것을 알 수 있다.
특정 user에 대해서 다음의 알고리즘과 유사도 함수를 사용한 추천 결과를 도출해 보았다.
- 알고리즘 : KNNBasic 유사도: cosine
- 알고리즘 : KNNWithMeans 유사도: pearson
결과는 다음과 같다.
이후 다양한 알고리즘(KNNBasic, KNNWithMeans, KNNBaseline, KNNWithZScore)과 다양한 유사도 함수(cosine, pearson, pearson_baseline, msd) 중 가장 좋은 성능을 보이는 모델을 찾아보았다. 기준은 cross validation(k=5, random_state=0)로 하였다.
그 결과, 가장 좋은 성능을 나타내는 모델은 KNNBaseline 알고리즘에 pearson_baseline 유사도 함수를 사용한 모델이었다.
def part3():
file_path = 'DMA_project2_team%02d_part2_UCR.csv' % team
reader = Reader(line_format='user item rating', sep=',', rating_scale=(1, 10), skip_lines=1)
data = Dataset.load_from_file(file_path, reader=reader)
trainset = data.build_full_trainset()
testset = trainset.build_anti_testset()
# TODO: Requirement 3-2. User-based Recommendation
uid_list = ['20384', '33306', '46833', '70628', '535']
# TODO: set algorithm for 3-2-1
sim_options = {'name' : 'cosine', 'user_based' : True}
algo = surprise.KNNBasic(sim_options = sim_options)
algo.fit(trainset)
results = get_top_n(algo, testset, uid_list, n=5, user_based=True)
with open('3-2-1.txt', 'w') as f:
for uid, ratings in sorted(results.items(), key=lambda x: x[0]):
f.write('User ID %s top-5 results\n' % uid)
for cname, score in ratings:
f.write('Category NAME %s\n\tscore %s\n' % (cname, str(score)))
f.write('\n')
print('3-2-1 complete!')
# TODO: set algorithm for 3-2-2
sim_options = {'name' : 'pearson', 'user_based' : True}
algo = surprise.KNNWithMeans(sim_options = sim_options)
algo.fit(trainset)
results = get_top_n(algo, testset, uid_list, n=5, user_based=True)
with open('3-2-2.txt', 'w') as f:
for uid, ratings in sorted(results.items(), key=lambda x: x[0]):
f.write('User ID %s top-5 results\n' % uid)
for cname, score in ratings:
f.write('Category NAME %s\n\tscore %s\n' % (cname, str(score)))
f.write('\n')
print('3-2-2 complete!')
# TODO: 3-2-3. Best Model
current_score = 1000
best_algo_ub = None
results = []
algo_list = [surprise.KNNBasic, surprise.KNNWithMeans, surprise.KNNBaseline, surprise.KNNWithZScore]
func_list = ['cosine', 'pearson', 'pearson_baseline', 'msd']
for algo_name in algo_list:
for func in func_list:
sim_options = {'name': func, 'user_based': True}
algo = algo_name(sim_options = sim_options)
kfold = KFold(n_splits = 5, random_state = 0)
result = surprise.model_selection.cross_validate(algo, data, measures=['RMSE'], cv = kfold, verbose =False)
results.append('algorithm : ' + str(algo) + ' function : ' + func + ' RMSE : ' + str(result['test_rmse'].mean()))
if result['test_rmse'].mean() < current_score :
current_score = result['test_rmse'].mean()
best_algo_ub = 'algorithm : ' + str(algo) + ' function : ' + func
best_score_ub = current_score
print(best_score_ub)
print(best_algo_ub)
print('3-2-3 complete!')
카테고리를 기준으로 top-10 user를 출력하는 item-based 추천 모델을 만 들었다. 주어진 추천 알고리즘과 유사도 함수를 사용해서 모델을 만들었고 위와 마찬가지로 KNNBasic과 cosine 함수로 만든 모델, 그리고 KNNWithMeans와 pearson 함수를 이용해 만든 모델 두가지를 사용했다. 결과는 다음과 같은 형식으로 나왔다.
위와 마찬가지로 다양한 알고리즘(KNNBasic, KNNWithMeans, KNNBaseline, KNNWithZScore)과 다양한 유사도 함수(cosine, pearson, pearson_baseline, msd)를 적용하여 가장 성능이 좋은 모델을 찾았다.
KNNWithZscore 알고리즘에 pearson 유사도를 사용한 모델이 가장 성능이 좋았다.
# TODO: Requirement 3-3. Item-based Recommendation
cname_list = ['Irish',
'Ethiopian',
'Wine Bars',
'Vegetarian',
'Sushi Bars']
# TODO - set algorithm for 3-3-1
sim_options = {'name' : 'cosine', 'user_based' : False}
algo = surprise.KNNBasic(sim_options = sim_options)
algo.fit(trainset)
results = get_top_n(algo, testset, cname_list, n=10, user_based=False)
with open('3-3-1.txt', 'w') as f:
for cname, ratings in sorted(results.items(), key=lambda x: x[0]):
f.write('Category NAME %s top-10 results\n' % cname)
for uid, score in ratings:
f.write('User ID %s\n\tscore %s\n' % (uid, str(score)))
f.write('\n')
print('3-3-1 complete!')
# TODO: set algorithm for 3-3-2
sim_options = {'name' : 'pearson', 'user_based' : False}
algo = surprise.KNNWithMeans(sim_options = sim_options)
algo.fit(trainset)
results = get_top_n(algo, testset, cname_list, n=10, user_based=False)
with open('3-3-2.txt', 'w') as f:
for cname, ratings in sorted(results.items(), key=lambda x: x[0]):
f.write('Category NAME %s top-10 results\n' % cname)
for uid, score in ratings:
f.write('User ID %s\n\tscore %s\n' % (uid, str(score)))
f.write('\n')
print('3-3-2 complete!')
# TODO: 3-3-3. Best Model
current_score = 10000
best_algo_ib = None
results = []
algo_list = [surprise.KNNBasic, surprise.KNNWithMeans, surprise.KNNBaseline, surprise.KNNWithZScore]
func_list = ['cosine', 'pearson', 'pearson_baseline', 'msd']
for algo_name in algo_list:
for func in func_list:
sim_options = {'name' : func, 'user_based': False}
algo = algo_name(sim_options = sim_options)
kfold = KFold(n_splits = 5, random_state = 0)
result = surprise.model_selection.cross_validate(algo, data, measures=['RMSE'], cv = kfold, verbose =False)
results.append('algorithm : ' + str(algo) + ' function : ' + func + ' RMSE : ' + str(result['test_rmse'].mean()))
if result['test_rmse'].mean() < current_score :
current_score = result['test_rmse'].mean()
best_algo_ib = 'algorithm : ' + str(algo) + ' function : ' + func
best_score_ib = current_score
print(best_score_ib)
print(best_algo_ib)
print('3-3-3 complete!')
수업 시간에 배운 다양한 머신러닝과 알고리즘을 직접 적용해보는 시간을 가졌다. 역시나 대부분의 노력은 mySQL
을 통한 데이터 전처리에 들어갔다. 그에 비해 모델을 학습시키는 것은 알고리즘을 잘 알지 못해도 라이브러리로 충분히 가능하다는 생각이 들었다. 다만 학습을 시키는 것 자체는 코드만 쓸 줄 안다면 가능하지만 성능이 좋은 모델을 만들기 위해서는 데이터에 대한 정확한 분석과 알고리즘의 차이점들을 정확히 알고 있어야 한다는 생각이 들었다. 사실 머신러닝을 할 때마다 느끼는 점이지만, 어떤 모델을 사용해야 현 상황에 가장 좋은지 정확히 판단을 할 수 있는가에 대해서 의문을 갖게 된다. 한 알고리즘에 대해서 여러 파라미터를 결정해야 하는 순간도 똑같은 의문이 든다. 당장 간단한 의사결정나무에서도 min_samples_leaf
, max_depth
를 어떻게 설정해야 가장 좋은 나무가 나올지 잘 가늠이 되지 않고 그냥 여러번 학습을 시켜보면서 정확도를 높이는 방법밖에 없다. 또 그렇게 조금씩이라도 정확도가 올라가도록 계속 파라미터를 바꾸는 과정에서도 정말 이 정확도가 높은게 좋은 모델이 맞는 건지 의심도 들었다. 실제 현업에서는 이를 어떻게 받아들이고 좋은 모델을 향해 나아가는지 궁금했다.