Python - 데이터분석

박준영·2020년 3월 24일
0

기본적인 데이터분석 세팅

import pandas as pd
import numpy as np
import matplotlib as mlp
import seaborn as sns
import pandas_profiling as pp
import re
import matplotlib.font_manager as fm

mpl.font_manager._rebuild()
mpl.pyplot.rc('font', family='NanumBarunGothic')
fontpath = '/Users/crinex/Library/Fonts/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)

%config InlineBackend.figure_format = 'retina'

null값 확인

.isnull().sum()

데이터타입 확인

.dtypes

데이터타입을 변경

.astype(int?,str?,float?)

데이터타입을 숫자로 변경

.to_numeric(data, errors='coerce')

통계적 수치를 출력

.describe()

String 데이터들의 통계적 수치 출력

.describe(include=[np.object])

특정 컬럼을 가진 데이터들을 관찰

해당 Feature를 가지고있는 모든 Records들을 출력
예를들어 부동산 데이터중 2020년(String)에 발생한 데이터들만 관찰
data_2020 = data[data['년'] == '2020']

특정 컬럼에 존재하는 각각 데이터들의 총합

.value_counts()

수치들을 읽기 편하게 고쳐준다.

pd.options.display.float_format = '{:,.0f}'.format

특정컬럼을 그룹화 하여 나머지데이터들의 통계수치를 살펴보자.

data.groupby(data['년']).describe().T
'년'컬럼을 기준으로 나머지 수치 데이털의 통계적 수치를 전치하여 보여준다.

데이터 재구조화

0개의 댓글