잘못된 연도 수정
함수 사용def value_to_year(x): if x in range(1,20): return x + 2000 elif x in range(80,100): return x + 1900 else : return x
변수 빈도
df.value_counts(dropna = False)
순차 정리
df.sort_values(by=['feature 이름'], ascending = False, axis=0) #큰수가 첫행으로 옴
그래프에 색깔넣기
막대그래프 생성 7.막대 색 지정 보기
색깔 여러가지 넣고 싶을때
히트맵
import seaborn as sns sns.clustermap(df, annot = True, annot_kws={'size':20}, fmt = '.2f', cmap='RdYlBu_r', vmax= 900)
카이제곱 Pvalue 해석 더 편하게 표시
from scipy.stats import chi2_contingency chi2_val, p, dof, expected= chi2_contingency(df, correction=False) print('Chi^2 값',': ',chi2_val.round(2),"\n") if(p<0.05) : print('귀무가설 H0를 기각한다.', 'p value:', p.round(2),"\n") else : print('귀무가설 H0를 기각하지 못한다.', 'p value:', p.round(2),"\n")
열 피쳐 삭제 할때
df.drop(labels = "unknown", axis = 0)
df.plot()일 때 figure 사이즈 조정
df.plot(x= 'index', y='', kind="bar",figsize=(20,10))
어떤 feature을 기준으로 다른 feature 바꿀때
df.groupby(by=['feature 이름'],as_index=False).sum() #or .mean() # 'feature'를 기준으로 그 안에 변수들 별로 더함 # 예를 들어 'Genre'일때 'Genre' 안에 호러, 코믹, 로맨스이 있다면 호러와 코믹,로맨스 각각 나머지 feature 값들을 더함
3개 이상 데이터프레임 붙일때: join 함수
- merge의 경우는 2개 밖에 못붙임
-join은 merge와 다르게 행 인덱스를 기준으로 결합한다는 점df1_= df1.copy() df2_= df2.copy() df3_= df3.copy() df1_=df1_.add_suffix('_1980') df2_=df2_.add_suffix('_1990') df3_=df3_add_suffix('_2000') resilt=df1_.join([df2_,df_3])
누적그래프
참고
그래프 안에 글씨 넣기plt.text(X좌표,Y좌표,'넣을 말',color= 'w',fontsize=15 )
순위 넣기
df['feature'].rank(ascending = False)
그래프에 값 표시
for i, v in enumerate(x): plt.text(v, y[i], y[i], fontsize = 9, color='blue', horizontalalignment='center', verticalalignment='bottom')
그 외 matplotlib로 그래프 그릴 때 좋은 참고하면 좋은 블로그
참고1
참고2
판다스 스타일링
cm = sns.light_palette("green", as_cmap=True) df.style.background_gradient(cmap=cm,subset=['feature 이름'])