data.variable.value_counts(ascending = False)
data.variable.value_counts(normalize = True, ascending = False)*100
round(소수점이 있는 데이터, ndigits = 1) # 소수점 첫째자리 반올림
import matplotlib.pyplot as plt
plt.bar(x = height.index, height = 빈도 or 백분율, color = )
plt.title('')
plt.xlabel('')
plt.ylabel('')
plt.show()
plt.pie(x = 빈도 or 백분율,
lables = x.index,
radius = 반지름,
counterclock = True or False,
startangle = 0 ~ 360)
plt.title('')
plt.hist(x = 양적 자료, bins = 구간의 정보 : 구간, 구간의 개수)
plt.show
가로를 고려하지 않고 세로의 높이로만 나타내는 막대그래프와는 다르게
히스토그램은 가로와 세로를 함께 고려해야 한다.
plt.boxplot(x = 양적 자료, vert = True or False, whis = 1.5)
# vert = True : 세로형, False : 가로형
# whis = 1.5 : default, IQR에 어떤 값을 곱할지
import numpy as np
data.variable.mean() #양적 자료
data.variable.median() #양적 자료
data.variable.mode()
Counter(data.variable).most_common() #가장 많은 숫자와 개수
stats.trim_mean(data.variable, proportiontocut = 0.05)
#scipy 사용
#0.05 = 5%
data.variable.max() - data.variable.min()
np.percentile(data.variable, q = 75) - np.percentile(data.variable, q = 25)
data.variable.std()
import statsmodels import robust
robust.mad(data.variable)
data.variable.describe()
data.describe()
data.describe(include = 'all')
#include : 'all', [object], ['category'], [np.number]
data.variable.skew()
data.variable.kurt()