프로젝트(데이터 분석) - 전주시 출산 정책 분석을 통한 개선 방향성 제시

HJ·2024년 7월 13일
0
post-thumbnail

계기

학과에서 우연히 빅데이터에 관심을 가지고 있는 학생들을 알게되었다. 이 네트워크를 소중히 생각하며, 같이 공모전에 나가보자고 제안했고 4명에서 해당 프로젝트를 한달가량 진행해 2024 전주시 데이터 분석 공모전에 출품하게 되었다. 나는 해당 프로젝트에서 팀장으로써 데이터 분석 총괄을 맡았고, 총 두가지 목표를 가지고 있었다.

첫번째는, 평소 느끼고 있었던 전주시의 문제를 데이터를 통해 더 깊게 분석하고 유의미한 결과를 도출해보는것. 두번쨰는, 파라미터 튜닝과 같은 단순 모델의 정확도를 높이기 위한 작업이 아닌 , 원천 데이터를 가공하고 분석 하면서 느꼈던 흥미와 생기를 다시 느껴보는것.

프로젝트 배경 및 목표

배경

해당 주제를 선정한 배경은 아래와 같이 크게 두가지이다.

  • 합계 출산율이 0.69 인 전주시
  • 아이보다 노인 정책이 위주인 전주시

전주시 합계 출산율은 2024년까지 꾸준하게 감소하고 있으며 현재 0.69를 기록하고 있다, 하지만 이러한 감소가 있음에도 불구하고 출산장려금 정책은 도내 꼴찌였으며 아이보다 노인 정책이 위주인것이 큰 문제의 포인트로 잡았다.

목표

배경에서 말한 문제를 완벽하게 해결하는것은 어렵다. 일단 가장 근본적인 문제인 인구 유출에 따른 인구 고령화를 해결해야 하는데 특정 아이디어로 이 근본적인 문제를 해결하는것은 어렵기 떄문이다. 따라서 어느정도 개선이 가능한 정책적인 요소를 다른 지역과 비교해 개선 방향성을 제안하는 방향으로 접근해보았다.

활용 데이터


데이터는 위 사이트에서 크롤링으로 가져온 데이터를 포함해 총 16개를 활용했다. 시도,시군구별 출산 지원금 / 전북특별자치도 시군구별 교육복지 본예산 데이터는 육아생활, 정부 24 웹사이트에서 python selenum을 활용해 크롤링을 통해 가져왔다. 이외 데이터는 각종 사이트에서 확보했으며 사용한 데이터는 아래와 같다.

메인 데이터

  • 시도,시군구별 출산 지원금
  • 전북특별자치도 시군구별 교육본지 본예산
  • 전북특별자치도 시군구별 교육환경(유치원,학원)
  • 전북특별자치도 시군구별 학교 , 학생수
  • 전북특별자치도 시군구별 소아과,산후조리원 위치

그외 데이터

  • 평균 연령 데이터
  • 1인세대 데이터
  • 초혼 나이 데이터
  • 인구 증감 데이터
  • 실업자 수 데이터
  • 출산율 데이터

전처리 과정

먼저 시군구별 출산 장려금 데이터와 보육 장려금 데이터는 크롤링을 통해 가지고 왔다. 두개 모두 합쳐서 총 15시간정도 소요되었으며, 227개 시군구별 1쨰~5째 지원금 정보 데이터 1135 row를 확보할 수 있었다. 이 데이터를 메인으로하고 각종 데이터들을 전처리 및 결합해 각 특성들을 피처로 사용해 최종적으로 전주시와 비슷한 시를 인공지능 모델을 활용해 찾아내는것이 최종 목표였다. 전처리를 하는 과정은 merge를 위해 각 데이터를 같은 형식에 맞게 바꿔줘야 했기에 많은 작업이 필요했고, 이 작업을 다 블로그에 담는것은 생략하겠다. 추후 지도를 시각화 하는 경우는 Googlemaps api를 활용했다.

분석

시도/시군구별 출산 지원금 데이터

시도별 총 출산 지원금을 먼저 비교하면 전북은 전국에서 상위권이나 전주는 199등으로 하위권이다. 이러한 출산 지원금에는 시군구 지원금이 영향을 많이 미쳤는데, 전주시가 전북에서 시군구 지원금이 압도적으로 가장 낮았다. 이 결과를 통해 전북은 좋은 지원금 정책을 가지고있지만, 전주시가 악영향을 주었다고 추측할 수 있었다.

전북특별자치도 시군구 별 교육 예산 / 학생 수 데이터

지원금이 적다면 실제로 산정된 교육 예산은 어떨까를 보기위해 전북교육청 24년 본예산 보고서를 보았다. 전북내에서 전주시의 예산 산정 금액은 높은 비중을 차지하는 것 같지만 , 실제로 학생수 대비로 계산하면 예산이 가장 낮은것을 확인할 수 있었다. 즉, 학생 1인당 지원되는 예산에도 문제가 있는것을 확인했다.

시군구별 보육 정책 / 혼인 수,인구수 데이터

이번에는 보육 정책쪽을 살펴보았다. 전북내 시군구별 보육정책 개수는 비슷했지만, 결혼한 인구수나 총인구수 대비로 보면 최하위인것을 확인할 수 있었다.
아이를 키우기 좋은 환경을 만들기 위해 결혼,인구수 대비 보육정책 개수도 증진이 필요했다.

전북특별자치도 시군구별 실업률,고용률 데이터

실제로 2024년에 진행한 전주 시민들을 대상으로 진행한 '저축산 극복을 위해 추진해야 할 정책'에 대한 설문조사 결과에 따르면 1순위는 경제적 지원이었고 , 2등으로 고용지원을 뽑았다.

따라서 지원금이 적으면 경제수익을 벌기 좋은 환경이면 아이를 키우기 괜찮지 않을까라는 생각에 고용과 관련된 데이터를 보았는데 , 실업률 대비 고용률이 전주가 가장 낮은 결과를 보였다.

분석정리

분석한 결과들을 연결시켜 정리해보았다. 전북은 전국에서 지원금은 상위권이나 지원금에 영향을 많이 미치는 시군구 지원금은 전주가 199등이다. 또한 , 많아 보이는 교육 예산이나 , 정책 개수도 학생수/인구수 대비로 보면 전북에서 최하위로 나타났고, 고용환경 또한 전북에서 최하위권이었다.

이 분석 결과를 통해 근본적인 문제인 전주시 지원금 정책 개선이 필요하다는 결론에 도달하였다. 이에 대한 해결점으로 막연하게 정책을 바로 바꾸는것은 무리가 있기에, 전주시와 비슷한 지역들을 인공지능을 모델링을 통해 찾고 전주시와 지원금 정책 비교를 하면서 개선 방향성을 제안하는것을 목표로 했다.

모델링

위에서도 말했듯이 모델링 최종 목표는 전주시와 특성이 비슷한 지역들을 찾는것이다. 큰 과정은 아래와 같다.

  1. 특성을 잘 반영할 수 있는 변수 추출 (복지수,평균연령 등)
    -> 모든 변수들을 상관관계 및 인과관계 분석을 통해 특성을 잘 반영할 수 있는 변수 8개를 추출
  2. 8개의 변수중 3개씩 두 덩이(A,B)로 추출해 나올수 있는 총 560개 조합 추출
    -> why 3개씩 ? : 군집알고리즘 특성상 너무 많은 변수를 특성으로 학습하면 오히려 분류를 잘 못하는 문제가 있기에, 가장 적합한 변수의 수를 찾은 결과
  3. 3개씩 두 덩이(A,B)로 나온 결과 560개를 모두 군집화 알고리즘 적용 후 실루엣 및 시각화 비교
    -> A,B 모두 높은 실루엣계수를 가진 변수 조합들을 채택
  4. A,B 각각 결과에서 전주시와 같은 군집에 있는 시군구들 교집합을 추출
  5. 최종 전주시와 비슷한 지역들과 전주시 정책 비교

사진으로 간단하게 보자면 아래와 같다.

조합을 추출하고 군집적용후 실루엣계수 비교

전주시와 같은 군집해 해당하는 교집합 시군구들을 추출

모델 선정 과정

대표적 비지도 학습 모델 DBSCAN , GMM , k-means , Meanshift 가 있었다. 각각 모델들을 시도해봤는데 결국 Meanshift model이 선정되었고 , 시도해는 과정은 아래와같다.

DBSCAN

밀도 기반 클러스터 방법인 DBSCAN은 군집화 결과를 보면 군집화 자체가 제대로 되지 않는 문제가 생겼다.

GMM

GMM은 기본으로 가우시간을 가정하는데 실업률 칼럼 데이터가 정규 분포를 따르지 않아 가우시간 가정에 위배되는 문제가 발생해 채택하지 못했다.

k-means

최적의 k의 개수를 elbow 방법을 활용해 찾고, 최적에 가까운 k들에 따른 군집분석을 해본결과 특정 클러스터로만 많은 시군구가 몰리는, 클러스터 불균형 문제가 생겼다.

최종 모델 선정


따라서 비모수적 알고리즘인 Meanshift를 활용해 군집화를 진행했고, 모델의 주요 파라미터인 bandwidth를 튜닝까지 진행해 최종 모델 스코어 0.597 / 0.511 이 나왔다.

방향성 제안

현실적으로 정책에 관한 문제이다보니 방향성을 제시한다고해서 바로 개선이 될 가능성은 적다. 하지만, 전주시와 특징이 비슷하지만 출산율 높은 지역과 정책 관련 비교를 통해 전주시가 개선이 되어야 한다는 사실을 부각한다면 실제 개선이 이루어질 가능성이 더 높아지지 않을까라는 생각이었다.

앞서 문제가 많이 거론되었던 시군구 지원금만 보더라도 김해시와 790만원 , 교집합 군집과 173만원 차이가 난다. 이를 통해 최종적으로 전주시 자체의 지원금 정책부터 개선을 해야한다는 방향성을 제안하게 되었다.

실제로 위와 같이 전주시는 전북내에서 소아과,산후조리원,공교육,사교육수가 다른 시군구에 비해 압도적으로 많다. 따라서 재정관련 문제만 해결된다면 아이를 키우기에는 좋은 환경이 기대가된다.

고찰

아쉬웠던점

먼저, 최종 모델이 높은 실루엣계수를 도출해내지 못한점이 아쉬웠다. 변수를 더 정교하게 처리했어야 했나, 더 유의미한 변수들로 구성을 했어야 했나 등이 아쉬움으로 남는다. 또한, 이미 있는 문제에 대한 개선 아이디어를 제시했다기보단 현 상황의 문제점을 직관적으로 보여주는데 초점이 맞춰져있어 현실적인 개선 방향을 명확하게 제시하지 못했던점이 아쉬움으로 남는다.

좋았던점

오랜만에 데이터 분석 프로젝트를 하면서 내 자신에게 열정과 생기를 느낄 수 있었다.
데이터에서 새로운 인사이트를 도출해내는 과정이 재밌어서 공부에 입문하게된 그때처럼, 시간가는줄 모르고 데이터를 설계,처리하고 분석했던것 같다. 처음 이루고자 했던 목표도 이루었고, 출품 결과도 전주시 데이터 분석 공모전에서 1등으로 입상하게 되어 기쁨은 배가 되었다. 또한, 프로젝트를 진행하면서 같은 꿈을 가지고 열정적으로 프로젝트에 임해준 팀원들에게도 너무 감사하다.

요즘 건강 이슈와 각종 일이 많다는 핑계로 블로그 활동에 2달의 공백기가 생겼었다. 항상 적당한 긴장감이 나를 나태해지지 않도록 만들어줬는데 그 긴장감을 조금은 놓치지않았나 스스로 반성하고있다. 앞으로는 다시 나에게 긴장감을 부여하고, 블로그 활동도 다시 열심히 해볼 생각이다. 나는 아직 많이 부족하니, 파이팅 !

profile
데이터 공부 기록

0개의 댓글

관련 채용 정보