[Python] 파이썬 데이터 분석 프로젝트 (조건별 월급 차이 분석 2 - 최종 학력에 따른 월급 차이)

Kylie·2022년 10월 18일
0
post-thumbnail
post-custom-banner

들어가기 전

지난 포스팅에서 성별에 따른 월급 차이가 어느 정도인 지 분석해보았다. 이번에는 최종학력에 따라 월급에 차이가 있는지, 있다면 어느정도 차이가 나는 지에 대해 분석해보고 자 한다.


분석할 데이터

최종 학력에 따른 월급 차이


데이터 가져오기

데이터 출처

https://www.koweps.re.kr:442/main.do

분석할 데이터

Koweps_hpc16_2021_beta1.sav

사용할 데이터 선정

16차 머지데이터_변수명_20220404.xlsx 참고

구분코드변수명
최종 학력p1607_3aq1education
일한달의 월 평균 임금p1602_8aq1imcome

데이터 분석 준비

필요한 패키지 랜더

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

데이터 랜더

origin_data = pd.read_spss('data/Koweps_hpc16_2021_beta1.sav')
data = origin_data.copy()

데이터 변수명 변경

data = data.rename(columns={
  'p1607_3aq1': 'education',
  'p1602_8aq1': 'income',
})

데이터 분석

1. 최종학력 데이터 전처리

조사 설계서에 따르면 최종학력 변수는 다음과 같다.

구분
중학교 졸업 이하1
고등학교 중퇴, 졸업2
전문대학 재학, 중퇴, 졸업3
대학교 (4년제) 재학, 중퇴, 줄업4
대학원 이상5
모름 / 무응답9

최종학력 이상치, 결측 처리

data['education'].value_counts()
education
4.0101
3.052
2.042
1.07
5.04

💡 education에 9가 없는 것으로 보아 이상치는 없는 것으로 확인된다.


최종학력 결측치 확인

data['education'].isna().sum()
12938

💡 총 12,938개의 결측치 (NaN) 가 있다.


최종학력 결측 데이터 삭제

data = data.dropna(subset=['education'])

최종학력 데이터에 이름 부여

data['education'] = np.where(data['education'] == 1 , '중학교 이하', 
np.where(data['education']== 2, '고등학교', 
np.where(data['education']==3 , '전문대', 
np.where(data['education']== 4, '대학교', '대학원 이상')
)))

확인

data['education'].value_counts()
education
대학교101
전문대52
고등학교42
중학교 이하7
대학원 이상4

2. 월급 데이터 분석

data['income'].describe()
Income
count60.000000
mean263.383333
std179.086769
min24.000000
25%126.500000
50%249.000000
75%342.000000
max1000.000000

💡 월급은 평균 263만 원이며, 최소 24만 원에서 최대 1,000만 원에 분포되어 있다.
월급은 126만 원 ~ 342만 원에 가장 많이 분포되어 있다.


3. 최종학력 - 월급 평균 데이터 만들기

  • income 결측치 행 삭제
  • mean_income이 높은 순서대로 출력
edu_income = data.dropna(subset=['income'])\
    .groupby('education', as_index=False)\
    .agg(mean_income = ('income','mean'))\
    .sort_values('mean_income', ascending=False)
edu_income
educationmean_come
1대학교310.800000
2대학원 이상282.666667
0고등학교243.000000
3전문대192.000000
4중학교 이하27.000000

💡 2021년 자료 분석 결과 대학교 졸업자의 평균 월급이 310만 원으로 가장 높고, 중학교 이하자의 평균 월급이 27만 원으로 가장 낮았다. 최종학력에 따라 월급에 차이가 있음을 알 수 있다.


4. 그래프로 확인

plt.rcParams.update({'font.family': 'AppleGothic'})
sns.barplot(data=edu_income, x='education', y='mean_income')

그래프로 확인해도 최종 학력에 따라 월급 차이가 나는 것을 확인할 수 있다.

profile
올해보단 낫겠지....
post-custom-banner

0개의 댓글