[Python] seaborn_대학원 입학과 스펙의 연관성 #4_범주형 데이터

Andy Oh Sae Ha·2022년 6월 26일
0
post-thumbnail

우리가 흔히 말하는 '스펙' (GRE 점수, Research 여부, TOEFL 시험 성적 등)이 대학원 입학에 미치는 영향과 가장 중요한 역할을 하는 요소에 관한 데이터 분석

#4 에서는 범주형 데이터를 seaborn을 활용하여 시각화 하는 방법에 대하여 이야기 합니다

***해당 분석은 Google Colab를 활용하여 출력한 자료들입니다


범주형 데이터란

  • 수치적으로 표현되는 수치형 데이터와 달리 2개 이상의 범주로 구분되는 데이터
    • ex. 남/녀
    • ex. 초/중/고

환경 세팅하기

plt.rc('axes', unicode_minus = False) 

음수 표기를 위한 "-"에 대한 사용을 허용시키는 명령문


범주형 데이터 시각화하기

범주형 데이터를 수치형으로 표기한다면?

plt.title('Univ.')
sns.distplot(dat['Univ.'])
plt.show()

수치적으로 표기가 필요한 부분만 표현되며 실제 그래프는 작성되지 않는 것을 확인할 수 있습니다

데이터가 차지하는 량을 %가 아닌 숫자로 표기 COUNTPLOT출력

plt.title('Univ.')
sns.countplot(data['Univ.'])
plt.show()

plt.title() 은 그래프의 이름을 출력
sns.countplot() 은 countplot을 호출
plt.show() 은 그래프를 출력

위 그래프를 통해 'University Rating'이 3인 학생이 가장 많이 분포되어 있다는 걸 알 수 있습니다

BOXPLOT출력

plt.title('Univ.')
sns.boxplot(data['Univ.'], data['Admit'])
plt.show()

plt.title() 은 그래프의 이름을 출력
sns.countplot() 은 boxplot을 호출
plt.show() 은 그래프를 출력

위 그래프를 통해 'University Rating'이 5에 가까울수록 'Admit'에 도움이 된다는 것을 알 수 있다

BARPLOT출력

plt.title('Univ.')
sns.barplot(data['Univ.'], data['Admit'])
plt.show()

plt.title() 은 그래프의 이름을 출력
sns.countplot() 은 barplot을 호출
plt.show() 은 그래프를 출력

VIOLINPLOT출력

plt.title('Univ.')
sns.violinplot(data['Univ.'], data['Admit'])
plt.show()

plt.title() 은 그래프의 이름을 출력
sns.violinplot() 은 violinplot을 호출
plt.show() 은 그래프를 출력

SWARMPLOT출력

plt.title('Univ.')
sns.swarmplot(data['Univ.'], data['Admit'])
plt.show()

plt.title() 은 그래프의 이름을 출력
sns.swarmplot() 은 swarmplot을 호출
plt.show() 은 그래프를 출력

profile
데이터 분석가

0개의 댓글