Data Wrangling

seongyong·2021년 4월 20일
0

학습내용

데이터 중복확인

# train과 test 겹치는 데이터확인
# set1.isdisjoint(set2)
set(orders[orders['eval_set']=='test']['user_id'])\
    .isdisjoint(set(orders[orders['eval_set']=='train']['user_id']))

# 데이터의 row가 중복되는지 확인
len(orders[orders['eval_set'].isin(['train','test'])]) \
,len(orders[orders['eval_set'].isin(['train','test'])]['user_id'].unique())

groupby

train.groupby('order_id')['product_id'].apply(list)

#주문에 바나나가 있는 경우 True를 리턴
train.groupby('order_id')['product_id'].apply(lambda x : id_Banana in list(x)).value_counts(normalize=True)

# any(): 주문(order_id) 중에서 한 번이라도 Banana 주문이 있는 경우 True
train.groupby('order_id')['banana'].any().value_counts(normalize=True)

0개의 댓글