df.columns: 모든 열 이름 변경
df.rename(): 지정한 열 이름 변경
tip.columns = ['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size']
tip.rename(columns={'total_bill_amount': 'total_bill',
'male_female': 'sex',
'smoke_yes_no': 'smoker',
'week_name': 'day',
'dinner_lunch': 'time'}, inplace=True)
없는 열을 변경시 df['new] = []: 맨 뒤에 열 추가
insert(): 지정한 위치에 추가
# final_amt 열 추가
tip['final_amt'] = tip['total_bill'] + tip['tip']
# tip 열 앞에 div_tb 열 추가
tip.insert(1, 'div_tb', tip['total_bill'] / tip['size'])
df.drop()
axis=0: 행 삭제(기본 값), axis=1: 열 삭제
inplace = False : 삭제한 것처럼 보여줘, True : 원본 데이터 변경
# 열 하나 삭제
tip.drop('final_amt', axis=1, inplace=True)
# 열 두 개 삭제
tip.drop(['div_tb', 'day'], axis=1, inplace=True)
[]: 조건문 사용가능
map: 값에 따라 변경 가능
# tip[‘tip’] 의 모든 값을 0으로 바꾸기
tip[‘tip’] = 0
# tip[‘tip’] 의 값이 10보다 작을 경우, 0으로 바꾸기
tip.loc[tip[‘tip’] < 10, ‘tip’] = 0
# tip[‘tip’] 의 값이 10보다 작을 경우 0, 아니면 1로 바꾸기
tip[‘tip’] = np.where(tip[‘tip’] < 10, 0, 1)
# Male -> 1, Female -> 0
tip['sex'] = tip['sex'].map({'Male': 1, 'Female': 0})
# 크기로 3등분해서 등급 구하기
tip['tip_grp'] = pd.cut(tip['tip'], 3, labels=['c', 'd', 'e'] )
# 나이를 다음 구간으로 분할합니다.
# 'young' : =< 40
# 'junior' : 40 < =< 50
# 'senior' : 50 < np.inf
# 값의 범위 중 오른쪽(큰값)이 아닌 왼쪽(작은값)이 포함되도록 하려면 pd.cut 함수 옵션에 right = False 라고 지정해야 합니다.
age_group = pd.cut(data2['Age'], bins =[0, 40, 50, 100], labels = ['young','junior','senior'])
age_group.value_counts()
axis: 0(세로, 행), 1(가로, 열) 방향으로 합친다
join: outer(모든 행과 열 합치기), inner(같은 행만 합치기)
# 세로로 합치기
pd.concat([df1, df2], axis = 0, join = 'inner')
pd.concat([df1, df2], axis = 0, join = 'outer')
# 가로로 합치기
pd.concat([df1, df2], axis = 1, join = 'inner')
pd.concat([df1, df2], axis = 1, join = 'outer')
join: outer(모두 합치기), inner(같은 값만 합치기)
left : 왼쪽 df는 모두, 오른쪽 df는 같은 값만
right : 오른쪽 df는 모두, 왼쪽 df는 같은 값만
on: 기준 설정
pd.merge(df1, df2, how = 'inner', on = 'A')
pd.merge(df1, df2, how = 'left')
pd.merge(df1, df2, how = 'right')
temp = pd.merge(sales1, products)
temp2 = temp.groupby(['Date', 'Category'], as_index = False)['Qty'].sum()
temp3 = temp2.pivot(index = 'Category', columns = 'Date' , values = 'Qty')
np.mean(t['Fare'])
t['Fare'].mean()
np.median(t['Fare'])
t['Fare'].median()
titanic['Pclass'].mode()
# 기초 통계량
df.describe()
plt.hist(titanic.Fare, bins = 30, edgecolor = 'gray')
plt.xlabel('Fare')
plt.ylabel('Frequency')
plt.show()
sns.kdeplot(titanic['Fare'])
plt.show()
plt.boxplot(temp['Age'] , vert = False)
plt.grid()
plt.show()
titanic['Embarked'].value_counts()
titanic['Embarked'].value_counts(normalize = True)
sns.countplot(titanic['Pclass'])
plt.grid()
plt.show()