판다스 집계함수, groupby 사용하기

skyepodium·2020년 5월 2일
0

1. sort_values

1) 정의

특정 칼럼을 기준으로 데이터를 정렬합니다.

2) parameters

  1. by - 칼럼 리스트

  2. ascendeing - 오름 차순 여부, 불린 리스트

  3. inplace - 반환 여부, True, False

3) 반환값

데이터 프레임
(inplace=False) 인 경우

4) 예시

# Pclass 는 내림 차순, Age 는 오름차순으로 정렬
train.sort_values(by=["Pclass", "Age"], ascending=[False, True])

2. 집계함수

1) 정의

min(), max(), sum(), count() 와 같은 집계함수가 있습니다.

2) 모든 칼럼에 적용

DataFrame에 집계함수를 사용하면, 모든 칼럼에 대해 적용합니다.

따라서 [] 연산자로 필터링 후 집계함수를 적용합니다.

train[["Age", "Pclass"]].count()

3) 여러 집계함수 적용

.agg() 에 집계함수명 리스트를 넣어서 사용합니다.

train[["Age", "Pclass"]].agg(["count", "max"])

3. groupby

1) 정의

특정 칼럼을 기준으로 데이터를 그룹화합니다.

2) parameters

by - 칼럼 리스트, 리스트 첫번째 요소로 그룹화 그다음 요소로 재 그룹화

3) 반환값

DataFrameGroupBy 자료형

4) 특징

  1. groupby 결과에 집계함수 사용하면, 대상 칼럼 제외 모든 칼럼 적용

  2. groupby 결과에 [] 연산자로 필터링 후, 집계함수 적용 가능

  3. 각각의 칼럼에 여러개의 집계함수 적용 가능 .agg(["max", "min"])

  4. 각가의 칼럼에 개별 집계함수 적용 가능 train.agg({"Age": "min", "Pclass": "max"})

profile
callmeskye

0개의 댓글