[7/29~8/4]project1

마친자·2021년 8월 4일

데이터 전처리

단위 맞추기
https://stackoverflow.com/questions/39684548/convert-the-string-2-90k-to-2900-or-5-2m-to-5200000-in-pandas-dataframe

잘못된 연도 수정
함수 사용

def value_to_year(x):
   if x in range(1,20):
      return x + 2000  
   elif x in range(80,100):
      return x + 1900   
   else :   
      return x

지역에 따른 장르 선호도

변수 빈도

df.value_counts(dropna = False) 

순차 정리

df.sort_values(by=['feature 이름'], ascending = False, axis=0)
#큰수가 첫행으로 옴

그래프에 색깔넣기
막대그래프 생성 7.막대 색 지정 보기
색깔 여러가지 넣고 싶을때

히트맵

import seaborn as sns
sns.clustermap(df,
               annot = True, annot_kws={'size':20},
               fmt = '.2f',
               cmap='RdYlBu_r',
               vmax= 900)

참고
참고

카이제곱 Pvalue 해석 더 편하게 표시

from scipy.stats import chi2_contingency
chi2_val, p, dof, expected= chi2_contingency(df, correction=False) 
print('Chi^2 값',': ',chi2_val.round(2),"\n")
if(p<0.05) : 
    print('귀무가설 H0를 기각한다.', 'p value:', p.round(2),"\n")
else :
    print('귀무가설 H0를 기각하지 못한다.', 'p value:', p.round(2),"\n")

참고

연도별 게임의 트렌드

열 피쳐 삭제 할때

df.drop(labels = "unknown", axis = 0)

df.plot()일 때 figure 사이즈 조정

df.plot(x= 'index', y='', kind="bar",figsize=(20,10))

어떤 feature을 기준으로 다른 feature 바꿀때

df.groupby(by=['feature 이름'],as_index=False).sum() #or .mean()
# 'feature'를 기준으로 그 안에 변수들 별로 더함 
# 예를 들어 'Genre'일때 'Genre' 안에 호러, 코믹, 로맨스이 있다면 호러와 코믹,로맨스 각각  나머지 feature 값들을 더함

참고

3개 이상 데이터프레임 붙일때: join 함수

  • merge의 경우는 2개 밖에 못붙임
    -join은 merge와 다르게 행 인덱스를 기준으로 결합한다는 점
df1_= df1.copy()
df2_= df2.copy()
df3_= df3.copy()
df1_=df1_.add_suffix('_1980')
df2_=df2_.add_suffix('_1990')
df3_=df3_add_suffix('_2000')
resilt=df1_.join([df2_,df_3])

2개 붙일때
3개 붙일때

누적그래프
참고
그래프 안에 글씨 넣기

plt.text(X좌표,Y좌표,'넣을 말',color= 'w',fontsize=15 )   

참고

출고량 많은 게임 분석

순위 넣기

df['feature'].rank(ascending = False) 

그래프에 값 표시

for i, v in enumerate(x):
    plt.text(v, y[i], y[i],                
             fontsize = 9, 
             color='blue',
             horizontalalignment='center',  
             verticalalignment='bottom')    

참고

그 외 matplotlib로 그래프 그릴 때 좋은 참고하면 좋은 블로그
참고1
참고2

판다스 스타일링

cm = sns.light_palette("green", as_cmap=True)
df.style.background_gradient(cmap=cm,subset=['feature 이름'])

참고
다양한 스타일링

profile
마루에 미친자

0개의 댓글