집계
- 집계 함수를 통해서 판다스의 열 을 기준으로 집계를 한다.
열 하나 집계
- 특정 열의 값 합은 다음과 같이 구할 수 있습니다.
data['MonthlyIncome'].sum()
data[['MonthlyIncome', 'TotalWorkingYears']].mean()
- 'MonthlyIncome' 과 'TotalWorkingYears' 의 각각의 평균
- 이때 dtype 도 확인 가능하다.
group by (그룹별 집계)
data['MaritalStatus'].unique()
data['MaritalStatus'].value_counts()

- 만약 MaritalStatus 의 고유값 개수 별로 합을 구하고 싶을떄 사용한다.
- 해당 컬럼은 수치형 데이터 여야 한다.
data.groupby('MaritalStatus',as_index = True)['Age'].mean()
data.groupby('MaritalStatus', as_index=False)[['Age']].mean()
여러 열 집계
- 리스트 형태로 groupby 를 구하면 된다.
- 여러 열에 대한 집계를 같이 할 수 있습니다.
- [ ['feature1', 'feature2'] ].sum() 형태와 같이 집계 대상 열을 리스트로 지정합니다.
data.groupby('MaritalStatus', as_index=False)[['Age','MonthlyIncome']].mean()
여러 함수로 한꺼번에 집계
data_agg = data.groupby('MaritalStatus', as_index=False)[['MonthlyIncome']].agg(['min','max','mean'])
- agg 는 함수를 기준으로 컬럼을 만들어서 만들어준다.