DAY3

마친자·2021년 7월 12일
0

1. Concat

2개의 데이터프레임 붙이기

pd.concat([x, y], axis = 1) ## concate_by_column

index이 다른 경우 dimension이 같아야 하고 다른 경우, index이 같아야 함

기존에 있는 칼럼을 새로운 index로 지정

df.set_index(keys='index로 지정할 칼럼명', drop= True #keys로 지정된 칼럼 삭제여부

인덱스 초기화

df.reset_index(drop=False, inplace=False #원본 데이터 덮어쓰기 여부)

https://blog.naver.com/joojung_/222171404310 참고

데이터프레임 행 이름 변경

df.index=['행 이름','행 이름2']

day1-시리즈 VS 데이터 프레임 참고

데이터의 일부 feature 선택하기

df = df[['feature이름']]

[[ ]] 로 형태로 되어있음 주의

2.Reshape

wide형태에서 Tidy 형태로

tidy1 = table1.reset_index() # rownames를 새로 설정 
tidy1 = tidy1.melt(id_vars ='위치를 그래도 유지할 열의 이름을 지정',value_vars = ['A', 'B']# 행의 위치를 변경할 열의 이름 지정)

열의 이름 수정

tidy1 = tidy1.rename(
   columns = {
       '원래 이름',:'바꿀 이름'
       '원래이름2': '바꿀 이름', 
         }
)         

boxplot로 시각화

import matplotlib.pyplot as plt
import seaborn as sns
sns.boxplot(data = df_tidy, x = '종목명', y = 'value')

변수가 문자열이면 시각화 안되므로 수치형 데이터로 변환한 후 시각화

3.Merge & Join

각각 데이터프레임 합치기(공통된 부분을 기반)

df.merge("붙일 내용", how = "방법", on ="기준 feature")

how= inner/ left/ right/ cross
on이 복수일 경우 리스트 활용 #on=['key1','key2']
https://blog.naver.com/PostView.nhn?blogId=wideeyed&logNo=221535156243 참고

4. Groupby

https://blog.naver.com/wideeyed/221578773214

df_subset.groupby('테마').mean() 
profile
마루에 미친자

0개의 댓글