[Day 9]

Dongbin Lee·2021년 1월 28일

2021 부캠 AI Tech

2021부캠AI

목록 보기

7/24

2021 부스트캠프 Day9

[Day 9] Pandas II / 확률론

Pandas II

Groupby I

SQL groupby 명령어와 같음
split -> apply -> combine

df.groupby("Team")["Points"].sum()
# Team : 묶음의 기준이 되는 컬럼
# Points : 적용받는 컬럼
# sum : 적용받는 연산
# 결과 : Team을 기준으로 Points들을 Sum

한개 이상의 column을 묶을 수 있음

df.groupby(["Team", "Year"])["Points"].sum()

Hierarchical index

Groupby명령의 결과물도 결국 dataframe
두 개의 column으로 groupby를 할 경우, index가 두개 생성
unstack() : Group으로 묶여진 데이터를 matrix 형태로 전환해줌
rest_index() : 묶여진 데이터를 분리해준다.

h_index.unstack()

swaplevel : index level을 변경할 수 있음

h_index.swaplevel()
h_index.swaplevel().sortlevel(0)

operations : index level을 기준으로 기본 연산 수행 가능

h_index.sum(level=0)
h_index.sum(level=1)

Groupby II

grouped : Groupby에 의해 Split된 상태를 추출 가능함

grouped = df.groupby("Team")
for name, groupt in grouped:
	print(name)
	print(group)

get_group() : 특정 key값을 가진 그룹의 정보만 추출 가능

grouped.get_group("Devils")

추출된 group 정보에는 세 가지 유형의 apply가 가능함
Aggregation: 요약된 통계정보를 추출해 줌

grouped.agg(sum)
grouped['Points'].agg([np.sum, np.mean, np.std])

Transformation: 해당 정보를 변환해줌

score = lambda x: (x.max())
grouped.transform(score)

Filtration: 특정 정보를 제거 하여 보여주는 필터링 기능

df.groupby('Team').filter(lambda x: len(x) >= 3)

Pivot Table

우리가 excel에서 보던 것
Index 축은 groupby와 동일
column에 추가로 labeling 값을 추가하여, value에 numeric type값을 aggregation 하는 형태

df_phone.pivot_table(["duration"], index=[df_phone.month, df_phone.item], columns=df_phone.network, aggfunc="sum", fill_value=0)

Crosstab

두 칼럼에 교차 빈도, 비율, 덧셈 등을 구할 때 사용
Pivot table의 특수한 형태
User-Item Rating Matrix 등을 만들 때 사용가능

pd.crosstab(index=df_movie.critic, columns=df_movie.title, values=df.movie.rating, aggfunc="first").fillna(0)

Merge

SQL에서 많이 사용하는 Merge와 같은 기능
두 개의 데이터를 하나로 합침

pd.merge(df_a, df_b, on='subject_id')
# subject_id를 기준으로 merge

pd.merge(df_a, df_b, left_on='subject_id', right_on='subject_id')
# 두 dataframe이 column이 다를 때

pd.merge(df_a, df_b, on='subject_id', how='left')
# left join

pd.merge(df_a, df_b, on='subject_id', how='right')
# right join

pd.merge(df_a, df_b, on='subject_id', how='outer')
# full(outer) join

pd.merge(df_a, df_b, on='subject_id', how='inner')
# inner join

pd.merge(df_a, df_b, right_index=True, left_index=True)
# index based join