2개의 데이터프레임 붙이기
pd.concat([x, y], axis = 1) ## concate_by_column
index이 다른 경우 dimension이 같아야 하고 다른 경우, index이 같아야 함
기존에 있는 칼럼을 새로운 index로 지정
df.set_index(keys='index로 지정할 칼럼명', drop= True #keys로 지정된 칼럼 삭제여부
인덱스 초기화
df.reset_index(drop=False, inplace=False #원본 데이터 덮어쓰기 여부)
데이터프레임 행 이름 변경
df.index=['행 이름','행 이름2']
day1-시리즈 VS 데이터 프레임 참고
데이터의 일부 feature 선택하기
df = df[['feature이름']]
[[ ]] 로 형태로 되어있음 주의
wide형태에서 Tidy 형태로
tidy1 = table1.reset_index() # rownames를 새로 설정
tidy1 = tidy1.melt(id_vars ='위치를 그래도 유지할 열의 이름을 지정',value_vars = ['A', 'B']# 행의 위치를 변경할 열의 이름 지정)
열의 이름 수정
tidy1 = tidy1.rename( columns = { '원래 이름',:'바꿀 이름' '원래이름2': '바꿀 이름', } )
boxplot로 시각화
import matplotlib.pyplot as plt import seaborn as sns sns.boxplot(data = df_tidy, x = '종목명', y = 'value')
변수가 문자열이면 시각화 안되므로 수치형 데이터로 변환한 후 시각화
각각 데이터프레임 합치기(공통된 부분을 기반)
df.merge("붙일 내용", how = "방법", on ="기준 feature")
how= inner/ left/ right/ cross
on이 복수일 경우 리스트 활용 #on=['key1','key2']
https://blog.naver.com/PostView.nhn?blogId=wideeyed&logNo=221535156243 참고
https://blog.naver.com/wideeyed/221578773214
df_subset.groupby('테마').mean()