10년 전과 지금의 인구 현황을 비교해보려고 한다.

  • <나도코딩> 님의 유튜브 강좌를 기반으로 한 내용이다
  • 강의 시점에는 2011-2021을 비교했지만, 나는 2012-2022로 비교해보았다.

데이터 준비

이제는 실제로 존재하는 데이터를 활용해보자
① 구글에 '연령별 인구현황' 검색 → 여기에 들어가서 원하는 조건 설정 후 파일 다운로드

② 작업하는 폴더에 파일을 넣고 확인
→ 맨 위의 3행은 필요 없겠군. + 도시별로 나누지는 말고 전국 기준으로만 해봐야겠어.

③ 판다스의 .read_excel로 파일을 불러와 작업 수행 (아래에 계속)

2012 남자 데이터 정의

  • usecols : 원하는 column만 선택해서 불러올 수 있음.
    (skiprowsindex_col은 <Pandas>에서 배웠던 내용!)
  • .str.replace().astype(int)로 사용할 값을 콤마 없는 정수값으로 수정함. (.str.replace(), .iloc 역시 배웠던 내용!)

2012 여자 데이터 정의

  • usecols의 범위만 다르게 지정하고, 동일한 방식으로 불러옴.
  • df_w.columns를 확인해보면, 중복을 피하기 위해 ".1"이 다 붙어있음.
    → 근데 우리는 같은 figure 내에 함께 그릴 거라서 다시 column명을 통일함.
  • 마찬가지로, 깔끔하게 콤마 없는 정수값으로 수정

2012 데이터 시각화

  • 연령구분을 label로 하고, 전국 인구수를 value로 하여 누운 막대그래프 그려봄. (plt.barh()남자 데이터 먼저 그려봄)
  • 가로축의 의미를 알아보기 힘드니, 단위를 '천 명'으로 바꿈.
  • 여자 데이터도 같은 창에 함께 그려봄. but 겹치는 부분 있음.
  • 남자 데이터를 음수로 바꿔서, 남녀 데이터를 좌우로 그림. = 최종 그래프
    (→ 전에 배웠던 plt.savefig 써서 사진 파일로도 저장함)
    피라미드 형태로 그래프를 그렸더니, 남녀 인구수가 연령별로 어떻게 차이나는지 파악하기 좋은 자료가 만들어졌군. 이제 같은 방식으로 2022년도 그려보자!

2022 남자 데이터 정의

  • 이번엔 file_name 이라는 객체로 만들어서 불러와 봄.

2022 여자 데이터 정의

  • 여자 데이터도 동일한 방식으로 준비함.

2022 데이터 시각화

  • 2012년 인구피라미드와 동일한 설정으로 그래프 그림. = 최종 그래프

데이터 비교

  • 사진 파일로 만들어 놓은 2012/2022 인구피라미드를 나란히 보면 비교하기 좋음!

    → 0~4세 인구가 많이 줄어들었고, 전체적인 그래프의 분포가 전반적으로 위로 올라가는 듯한 모습을 보임. = 저출산과 고령화의 경향을 확인할 수 있음,,


🧐My Point

생각보다 간단한 내용인 것 같다. 그냥 데이터 시각화만 해본 느낌? '분석'이라고 하려면 더 심도있는 과정이 필요할 듯.

profile
생각은 그만

0개의 댓글