[데이터 사이언스] 5. Python

aliceshard·2023년 4월 12일

Pandas 문법

s4[s4 > s4.median()]

d =  pd.DataFrame({ 'Name': pd.Series(['Alice','Bob','Chris']), 
                  'Age': pd.Series([ 21,25,23]) } )

df_sub.loc[10:20,['rank','sex','salary']]
df_sub.iloc[10:20, [0,3,4,5]]

df_sorted = df.sort_values(by = ['service', 'salary'], ascending = [True,False])

flights[['dep_delay','arr_delay']].isnull().sum()

flights[['dep_delay','arr_delay']].agg(['min','mean','max'])
flights.agg({'dep_delay':['min','mean',max], 'carrier':['nunique']})

TransactionEncoder는 mlxtend.preprocessing에서, apriori와 association_rules는 mlxtend.frequent_patterns에서 가져온다.
원본 행렬 데이터에서 가공법은 te.fit( -> te_ary1.transform()
가공된 teary2의 컬럼을 가져올 때는 te_columns를 사용한다.
apriori의 입력으로 받는 것은 가공이 다 되어서 T/F만 있는 데이터 프레임.

frequent_items = apriori(df1, min_support=0.05, use_colnames=True)

rules[rules['antecedents'] == {'Eggs', 'Kidney Beans'}]

rules[(rules['lift'] >= 2) & (rules['confidence'] >= 0.6) & (rules['support'] >= 0.2)]

plt.hist(df['salary'],bins=8, density=1)

2) seaborn package와 연계해서 사용

sns.distplot(df['salary'])

3) pandas에 있는 plot(kind='') 사용

df.groupby(['rank'])['salary'].count().plot(kind='bar')

대체로 seaborn이 유용하다. 그냥 바로바로 구현해주기 때문.

barplot, violinplot, regplot, boxplot, swarmplot, catplot, pairplot

안녕하세요.