Project_Ai_D17

dannialism·2021년 12월 10일
0

내용

EDA 진행. 데이터 클린닝.

  • K(1000) 단위의 정보를 K를 지우고 /1000 하여 단위를 Milloion으로 맞춤.
  • 연도의 자릿수를 맞춰줌. 예)97-> 1997. 07->2007.

데이터 분석 계획 수립.

(1) 지역별 장르 상관 구조

  • 지역별 데이터의 판매량 자체만을 가지고 4개의 집단을 비교하는 것은 적절하지 않다.
    이유: 대륙별 인구, GDP 등 같은 조건이 아니기 때문.
  • 지역별, 장르별 판매량이 서로 상관관계가 있는 지 증명해야함.
  • 박스 플롯으로 각 지역별 평균과 데이터 값을 표기.
  • 다음 AVODA 방법으로 데이터의 분포가 유의미하게 근접해 있는 지 확인한다.

사용한 코드

1) .str.contains('K')] -> () 안에 값을 포함하는 row를 선택.

2) .replace({'K':'','M':''},regex=True) -> 괄호안에 리스트를 만들어 여러 한 번에 여러 값을 교체할 수 있다. regex 의 의미는 regular expression이다. 이 parameter를 설정해주면 더 원활하게 적용할 수 있다.

3) .filter(regex='_Sales').columns -> filter로 '' 값을 지정하고, columns으로 컬럼을 추출한다.

4) .replace({'K': '/1000', 'M': ''}, regex=True).applymap(pd.eval) -> replace를 하면서 사칙연산을 할 수 있다. pd.eval을 이용하는데 map, applymap, apply 3가지 적용하는 방법이 있다. map 은 오직 series, apply 는 오직 dataframe, applymap 은 둘다 적용이 가능하다.

5) pd.concat([df_info,df_sales],axis=1) -> axis=1 설정하여 옆으로 물리적으로 붙인다.

6) np.where(abalone.length > np.median(abalone.length) -> where, 찾
고자 하는 정보를 찾아 준다.

7) Python str() function returns the string version of the object.

8) The keys() method returns a view object. The view object contains the keys of the dictionary, as a list.

df = pd.read_csv("your_csv_file")

'''df = pd.DataFrame({'Used CPU':['1','0','2','2','0','51550m'], \
'Used Memory':['4Gi','0','4Gi','4Gi','0', '39528Mi'], \
'Hard CPU':['50','0','4','4','100m','56'], \
'Hard Memory':['24Gi','0','8Gi', '8Gi', '128Mi', '47Gi']})'''

units = {'m':0.001,'Mi':0.00104858,'Gi':1.0737425}
def conversion(x):
for key in units.keys():
if key in str(x):
x = x.split(key)[0]
x = (int(x)*units[key])
return x
return str(x)

df = df.applymap(conversion)
df = df.apply(lambda x: x.astype(np.float64), axis=1)
print(df)

9)DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)

10)pandas.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name='All', dropna=True, normalize=False)

profile
danny + realism

0개의 댓글