25.6.11TIL

황효정·2025년 6월 11일

데이터 분석

목록 보기
78/88

판다스 groupby

판다스에서의 groupby는 뒤에 집계함수, 변환등에 사용될 수있다.
그냥 그룹바이만 하면 아무일도 일어나지 않음. 뒤에 함수를 지정해주어야 그룹바이로 묶여서 뭔가가 계산이 된다.

⛏ 꼭 집계 함수만 되는 건 아님!
집계 함수 말고도 다른 작업도 가능함. 예를 들어:

필터링:

df.groupby('category').filter(lambda x: len(x) > 1)
변환:


df.groupby('category')['price'].transform('mean')
적용 (apply):


df.groupby('category').apply(lambda x: x.head(1))

즉, 집계 함수는 가장 흔한 용도일 뿐, 필터, 변환, 사용자 정의 함수 등 다양하게 사용할 수 있어요.

✏️ 정리
사용 형태 의미
df.groupby('col') 그룹만 지정한 상태 (아직 아무 작업 안 함)
df.groupby('col').sum() 그룹별 합계
df.groupby('col').mean() 그룹별 평균
df.groupby('col').apply() 그룹에 사용자 정의 함수 적용
df.groupby('col').filter() 특정 조건에 맞는 그룹만 남김
df.groupby('col').transform() 각 행에 그룹 통계 적용 (원래 길이 유지)

카테고리별 EDA진행

세컨드카테고리에서 moisturizers로 해서 진행을 했다. 처음에 코드진행할 때 계속 내가 원하는대로 안나와서 망했다가 오후에 다시 시작했을땐 잘 진행이 되었다.

컬럼을 카테고리로 나눠서 분류해서 각자 EDA진행.


나는 이컬럼으로 진행하였다.
진행한것 -> https://docs.google.com/spreadsheets/d/14n4AZJAnlxPO-JJ0MIkPxUZNN_Cx6w4EfPBRPsfzLck/edit?gid=0#gid=0

내일은 오늘 피드백 들은것에서 고칠거 고치고 추가로 진행해볼것들 진행해보는것이 목표이다.

profile
청지기

0개의 댓글