주요 파라미터 : by, ascending, inplace
titanic_sorted = titanic_df.sort_values(by=['Pclass', 'Name'], ascending=False)
titanic_sorted.head(10)
Pclass로 먼저 정렬한 후 만약 Pclass가 동일하다면 Name을 차순위로 정렬한다. ascending=False
이므로 내림차순으로 정렬이다.
titanic_df.count()
titanic_df[['Age', 'Fare']].mean()
titanic_groupby = titanic_df.groupby(by='Pclass')
print(type(titanic_groupby))
[Output]
<class 'pandas.core.groupby.generic.DataFrameGroupBy'>
이렇게 친절하게 DataFrameGroupBy
라고 나타난다.
titanic_groupby = titanic_df.groupby(by='Pclass').count()
titanic_groupby
이렇게 Pclass
별로 count도 가능하다.
agg_format = {'Age':'max', 'SibSp':'sum', 'Fare':'mean'}
titanic_df.groupby('Pclass').agg(agg_format)
aggeregation함수와 응용해서 사용할 수도 있다.
Source: 파이썬 머신러닝 완벽 가이드 / 위키북스