판다스 집계함수, groupby 사용하기

skyepodium·2020년 5월 2일

1. sort_values

1) 정의

특정 칼럼을 기준으로 데이터를 정렬합니다.

2) parameters

by - 칼럼 리스트
ascendeing - 오름 차순 여부, 불린 리스트
inplace - 반환 여부, True, False

3) 반환값

데이터 프레임
(inplace=False) 인 경우

4) 예시

# Pclass 는 내림 차순, Age 는 오름차순으로 정렬
train.sort_values(by=["Pclass", "Age"], ascending=[False, True])

2. 집계함수

1) 정의

min(), max(), sum(), count() 와 같은 집계함수가 있습니다.

2) 모든 칼럼에 적용

DataFrame에 집계함수를 사용하면, 모든 칼럼에 대해 적용합니다.

따라서 [] 연산자로 필터링 후 집계함수를 적용합니다.

train[["Age", "Pclass"]].count()

3) 여러 집계함수 적용

.agg() 에 집계함수명 리스트를 넣어서 사용합니다.

train[["Age", "Pclass"]].agg(["count", "max"])

3. groupby

1) 정의

특정 칼럼을 기준으로 데이터를 그룹화합니다.

2) parameters

by - 칼럼 리스트, 리스트 첫번째 요소로 그룹화 그다음 요소로 재 그룹화

3) 반환값

DataFrameGroupBy 자료형

4) 특징

groupby 결과에 집계함수 사용하면, 대상 칼럼 제외 모든 칼럼 적용
groupby 결과에 [] 연산자로 필터링 후, 집계함수 적용 가능
각각의 칼럼에 여러개의 집계함수 적용 가능 .agg(["max", "min"])
각가의 칼럼에 개별 집계함수 적용 가능 train.agg({"Age": "min", "Pclass": "max"})

skyepodium

callmeskye

이전 포스트

판다스 인덱싱 사용하기

다음 포스트

판다스 집계함수, groupby 사용하기

1. sort_values

1) 정의

2) parameters

3) 반환값

4) 예시

2. 집계함수

1) 정의

2) 모든 칼럼에 적용

3) 여러 집계함수 적용

3. groupby

1) 정의

2) parameters

3) 반환값

4) 특징

판다스 인덱싱 사용하기

카카오 다트 게임

0개의 댓글

관련 채용 정보