주제 : 단변량분석_숫자형, 범주형 변수
목표 : 숫자형 변수와 범주형 변수를 공부하면서 완벽하게 구분해 낼 수 있다.
✍ 입력
# 평균
titanic['Fare'].mean()
# 중앙값
titanic['Fare'].median()
# 최빈값
titanic['Fare'].mode()
# 4분위수
titanic['Fare'].describe()
✍ 입력
titanic['Fare'].describe()
✍ 입력
titanic.head()
✍ 입력 : plt.histplot
# bins가 x축의 구간을 나누어 준다.
plt.hist(titanic.Fare, bins = 5, edgecolor = 'gray')
plt.show()
✍ 입력 : sns.histplot
sns.histplot(x= 'Fare', data = titanic, bins = 20)
plt.show()
✍ 입력
sns.kdeplot(titanic['Fare'])
plt.show()
주의사항 : 값에 NaN이 있으면 그래프가 그려지지 않습니다.
✍ 입력 : plt.boxplot
# titanic['Age']에는 NaN이 있습니다. 이를 제외한 데이터
temp = titanic.loc[titanic['Age'].notnull()]
plt.boxplot(temp['Age'])
plt.grid()
plt.show()
✍ 입력 : sns.boxplot
seaborn 패키지 함수들은 NaN을 알아서 빼줍니다.
sns.boxplot(x = titanic['Age'])
plt.grid()
plt.show()
✍ 입력 :
air['Date'] = pd.to_datetime(air['Date']) # 날짜 형식으로 변환
plt.plot('Date', 'Ozone', 'g-', data = air, label = 'Ozone')
plt.plot('Date', 'Temp', 'r-', data = air, label = 'Temp')
plt.xlabel('Date')
plt.legend()
plt.show()
titanic['Embarked'].value_counts()
titanic['Embarked'].value_counts(normalize = True)
[문1] titanic의 Pclass에 대한 기초 통계량을 구하시오
✍ 입력
var = 'Pclass'
t1 = titanic[var].value_counts()
t2 = titanic[var].value_counts(normalize = True)
t3 = pd.concat([t1, t2], axis = 1)
t3.columns = ['count','ratio']
t3
✍ 입력
sns.countplot(x = 'Pclass', data = titanic)
plt.grid()
plt.show()