[분석] 저출산 담론의 구조와 출산율 패턴의 변화

백은서·2023년 10월 6일
0

[ 목차 ]

프로젝트 개요프로젝트 수행 절차 및 방법개선사항 및 기대효과개발후기 및 느낀점
1. 구성원 및 역할1. 가설 설정1. 인사이트 도출-
2. 문제의 제기(기획 배경 및 목표)2. 경제적 측면2. 기대효과
-3. 가치관 변화 측면3. 분석에 사용된 도구 및 방법

[ 프로젝트 개요 ]

1. 구성원 및 역할

백은서(기여도 60%)BC
1. 시점별 댓글 수집 및 분석1. 통계 수집 시각화1. 시점/주제별 댓글 수집 및 분석
2. 형태소 분석2. 서울시 코로플레스 맵 제작2. 댓글 추세 분석
3. 감성 분석3. 소득 상하위구 통계적 비교3. 의미연결망 분석
4. 포트폴리오 및 발표자료 제작
5. 발표

2. 프로젝트 배경 및 목표

1. 문제의 제기

1️⃣ 경제적 요인 : 경제적 지원이 뒷받침되면 혼인율과 출산율이 높아질 것인가?

2️⃣ 가치관 변화 : 아니면 가치관 변화에 따라 출산율의 패턴이 변화한 것일까?

💡 경제적 요인과 저출산을 둘러싼 여론의 변화를 분석해 원인과 대책을 짚어본다.



[ 프로젝트 수행 절차 및 방법 ]

[1] 경제적 측면 - 소득과의 연관성

💡 소득과 출산율, 혼인율 간의 상관관계를 알아보기 위해 서울시 내 자치구들 비교

  • 전국 단위나 수도권 외 지역까지 포함해 비교할 경우 도농간 차이, 주력 사업 차이, 수도권 집중 등 다른 변수들이 더 크게 작용할 우려가 있어 서울시 자치구들 비교로 정함

분석 방법

1️⃣ 국세청, 통계청에서 관련 자료 수집해 데이터베이스에 저장

2️⃣ SQL로 통계자료를 불러와 Pandas, Numpy, statsmodels 등 파이썬 통계 라이브러리를 이용해 분석

3️⃣ folium, Geo Pandas 등 파이썬 지도 라이브러리를 이용해 코로플레스 맵(지도상 히트맵)을 제작해 구별 지표 비교 시각화

분석 절차

1️⃣ 소득 상위 3개 구와 하위 3개 구 추출

  • 소득 기준 : 근로소득 연말정산 신고현황(통계청) (급여 총계를 1인당 금액으로 나누어 계산)
    출처 : 국세청,「국세통계」, 2021, 2023.06.04, 4.2.15 시·군·구별 근로소득 연말정산 신고현황(주소지)[2016~]

2️⃣ 각 구의 신혼부부 비중 차이 확인

  • 분석에 앞서 각 자치구별 출산율, 혼인율 비교가 타당한 지 알아보기 위해 각 구의 신혼부부 비중에 통계적으로 유의미한 차이가 있는지를 확인한다.
  • 통계청에서 얻은 구별 신혼부부수를 구별 주민등록세대수로 나눠 비중을 구한다.
  • 2021년 신혼부부 비중은 2.52% (종로구) ~ 5.20% (강동구)의 분포를 보였으며 카이제곱검정 결과, 기대 비중 3.98%에 P-value가 1.00으로 유의수준 알파(α) 값 0.05보다 훨씬 커 구 별로 통계적으로 유의미한 차 이가 없는 것으로 나타났다.

3️⃣ 코로플레스 맵(지도상 히트맵) 제작을 통해 구별 지표 비교 시각화

  • 출산율, 혼인율, 소득 등 선택된 각종 지표의 구별 분포를 히트맵을 통해 보여준다.
  • 구 이름을 클릭할 경우 지표의 구체적 수치가 담긴 팝업창이 뜬다.
  • 이를 통해 특정 지표의 각 구별 분포 정도를 한눈에 알아볼 수 있도록 한다.

4️⃣ 소득 상하위 3개구들을 대상으로 소득출산율의 상관관계와 인과관계 분석

  1. x축의 소득차이는 많이 나지만, y축을 살펴보면 비슷한 출산율 대에 모여있다.
  2. 막대 그래프로 보아도 출산율이 비슷한 수준이다.
  3. 소득 상하위 3개구간 상관계수 및 회귀분석 결과, 소득과 출산율에 유의미한 관계가 없어 25개구 전체 대상으로 상관관계 분석과 회귀분석을 시행했다.
  4. 그 결과가 바로 위 산점도이며, 회귀선 근처에 분포가 몰려있어야 두 변인 간의 관계가 있다고 할 수 있지만, 대부분 제각각 떨어져 있다.
  5. 상관계수 r은 0.064로 1보다 0에 훨씬 가까우므로 두 변인은 거의 무관하다고 볼 수 있다.
  6. 회귀분석 결과 P-value가 0.76으로 유의수준 알파(α) 값 0.05보다 훨씬 커 소득과 출산율의 인과관계는 없는 것으로 나타난다.

5️⃣ 소득 상하위 3개구들을 대상으로 소득혼인율의 상관관계와 인과관계 분석

  1. x축의 소득 차이는 많이 나지만, y축을 보면 혼인율 역시 비슷한 구간에 모여있다.
  2. 막대 그래프로 보아도 비슷한 수준의 혼인율 분포를 보인다.
  3. 소득 상하위 3개구 간 상관계수 및 회귀분석 결과, 소득과 혼인율에 유의미한 관계가 없어 25개구 전체 대상으로 상관관계 분석과 회귀분석을 시행했다
  4. 그 결과가 바로 위 산점도이며, 회귀선 근처에 분포가 몰려있어야 관계가 있다고 할 수 있지만, 제각각 떨어져 있다.
  5. 상관계수 r은 0.030로 1보다 0에 훨씬 가까우므로 거의 무관하다고 볼 수 있다.
  6. 회귀분석 결과 P-value가 0.886으로 유의수준 알파(α) 값 0.05보다 훨씬 커 소득과 혼인율의 인과관계는 없는 것으로 나타났다.

분석 결과

1️⃣ 경제적 여유가 없어서 출산을 하지 않는다?

  • 평균 근로소득이 2.4배나 차이가 나는 소득 상하위 3개 구들의 출산율, 혼인율에서 유의미한 차이가 없다는 것은 경제적 이유가 저출산의 주된 원인이라는 통념과 상반된다.

2️⃣ 그렇다면 왜?

  • 경제적 지원을 늘린다고 해결될 문제가 아니라면 어디서부터 풀어야 할까? 저출산 문제에 대해 사람들이 어떤 인식을 갖고 있는지 탐구할 필요가 있다.

[2] 가치관 변화 - 가치관 변화에 따라 출산율의 패턴이 변화한 것일까?

분석 방향

1️⃣ 출생아 수와 합계출산율 추이 통계 자료

  • 2015년에 출산율이 급격히 떨어지는 모습을 확인할 수 있다.
  • 따라서 해당 시점과 현 시점, 저출산과 관련된 국민들의 가치관을 비교하고자 해당 기간으로 설정한다.

2️⃣ 유튜브에 ‘저출산’ 키워드를 바탕으로 조회수가 높은 상위 영상의 댓글 내용을 비교하며 가치관 변화 양상을 분석한다.

분석 방법 : 크롤링, 워드 클라우드, 의미 연결망을 이용한 유튜브 영상 댓글 분석

1️⃣ 통계청의 사회조사 자료를 바탕으로 혼인과 출산에 대한 가치 파악

2️⃣ Youtube API를 이용한 영상 댓글 crawling

3️⃣ 댓글 내용을 분석하기 위해 형태소 분석 진행

4️⃣ 단어의 의미를 감성 분석과 의미 연결망을 이용하여 분석

분석 절차

1️⃣ ‘저출산’에 대한 국민들의 생각을 유튜브 댓글 내용을 통해 분석한다.(2014년과 현 시점의 비교)

YOUTUBE는 뉴스뿐만 아니라 다큐멘터리 등 다양한 콘텐츠가 모여 있어 의견을 모으기에 적합한 플랫폼이라 판단

2️⃣ 현 시점(2023년)과 출산율이 낮아지기 시작한 시점(2015년)을 비교한다.

3️⃣ 댓글에 많이 언급된 상위 단어의 의미를 분석하여 저출산과 관련한 가치관을 알아보고 비교한다.


(1) ‘저출산’ 키워드 분석

💡 ‘저출산’을 키워드로 조회수 상위 영상 선정

💡 영상 댓글 크롤링


query = "저출산"
start_date = '2022-06-01T00:00:00Z'  
end_date = '2023-05-31T23:59:59Z' 
order_option = 'viewCount'

1. 영상 검색 키워드 : 저출산
2. 영상 선정 및 댓글 분석 기준 : 출산율 감소 시기와 현 시점 비교

1️⃣ 영상 업로드 날짜

  • 2014년 6월 1일 ~ 2015년 5월 31일(1년간)
  • 2022년 6월 1일 ~ 2023년 5월 31일(1년간)

2️⃣ 영상 조회수 / 상위 5개

3️⃣ 댓글 중 빈도수 상위 50개의 단어 추출

  • 형태소 분석을 통한 일반 명사 추출

분석 내용 1 : “언급 빈도 상위 50개 단어 비교”

💡 1. 전체 댓글에서 언급된 단어의 빈도수를 기준으로 상위 50개를 추출, ‘저출산’에 대한 생각을 알아본다.

💡 2. 댓글의 좋아요를 하나의 댓글로 여겨 좋아요 수를 1점으로 가중치화하여 추출해 본다.

1️⃣ 문장에서 이모티콘, br tag 등 불필요한 부분을 제거하는 전처리

2️⃣ 단어의 언급을 살피기 위하여 문장의 형태소 분석을 통해 명사만을 추출한다.

💡 형태소 분석 : 카카오의 Khaiii 형태소 분석기 이용

3️⃣ 추출된 명사 데이터를 바탕으로 word cloud, flourish 시각화 자료를 통한 비교


워드 클라우드

출처: 한국행정연구원,「사회통합실태조사」, 2022, 2023.06.06, 기관별 신뢰 정도

분석 결과

  • 14년도와 현 시점, 두 영상의 댓글을 들여다 보면, 공통적으로는 정부와 관련된 단어가 많이 언급되었다는 것을 알 수 있다. 통계청의 기관별 신뢰도 조사 결과를 함께 보면 2014년과 2022년 모두 정부 부처에 대한 불신이 5-60퍼센트 가량을 차지한다는 사실을 알 수 있다. 국민들은 위기 상황에서 정책적인 부분에 많은 기대를 하지만, 결과적으로 국민들과 정부의 방향이 일치하지 않는다는 것 또한 알 수 있다.

  • 인구, 국가, 생산과 같은 단어에서 행복, 사랑과 같은 개인의 감정이 담긴 의미의 단어들의 언급으로의 변화를 미루어 보아 국가적인 관점에서 개인적인 관점으로 변화했음을 알 수 있다.

기타 시각화

1. 기간 중 저출산 조회시 영상 수 추이

2. 저출산 조회 영상 상위 5개 댓글 수 추이

3. 연도별 단어 빈도수 추이

4. 2014년과 2023년을 비교한 댓글 추이


분석 내용 2 : 감성 분석

💡 댓글에서 언급된 단어의 의미와 단어간 연관성을 파악하고자 감성 분석과 의미연결망 분석을 이용한다.

💡 감성 분석에는 “Open AI API”를 이용하고, “Chat GPT 4”를 이용해 그 결과를 분석한다.

💡 단어 의미의 분석에 앞서 의미 분석에 방해가 되는 조사 등은 형태소 분석을 이용해 제거한다.

💡 또한 의미없는 외자 등 형태소 분석기가 걸러내지 못한 명사들은 사용자 금지어 사전을 만들어 걸러낸다.


(1) 빈도수 상위 단어 감성 분석

감성 분석이란?

  • 텍스트에 나타난 사람들의 태도, 의견, 성향과 같은 주관적인 데이터를 분석하는 자연어 처리 기술

TF-IDF 분석이란?

  • 특정 단어의 등장 빈도와 역빈도를 곱한 값으로 텍스트 데이터에서 각 단어의 중요도를 계산하는 통계 기법

조회수 1위 영상의 상위 30개 감성 단어 빈도수 그래프
감성 사전을 통해 분석한 단어 빈도 그래프 

TF-IDF 분석 

Chat GPT 4의 세부 분석 결과

Cluster 0 : 긍정적 감정과 관련된 단어들로 구성. 예를 들어 감사, 즐거움, 고민, 친절함 등의 단어

Cluster 1 : 다양한 감정들이 섞여있는 단어들로 구성. 희망, 놀람, 실망, 자부심 등의 단어

Cluster 2 : 긍정적인 감정과 관련된 단어들로 구성. 기쁨, 감동, 행복, 존경, 환영, 확신, 열정, 애정, 사랑스러움 등의 단어

Cluster 3 : 다양한 감정과 관련된 단어들로 구성. 칭찬, 슬픔, 배려, 흥미, 신뢰, 호감, 화려함 등의 단어

Cluster 4 : 비교적 작은 그룹이며 긍정적인 감정들과 부정적인 감정들이 혼합되어 있는 단어들로 구성. 사랑, 기대, 화남 등의 단어

각 클러스터는 서로 다른 감정 또는 관련된 단어들을 그룹화한 것으로 보인다. 이렇게 클러스터링된 결과를 바탕으로 각 그룹의 주제나 의미를 추가적으로 분석할 수 있다.

분석 결과

  • 감성분석을 통해 분석되어 나온 단어의 그룹별 특징들을 알아보며, 단순히 댓글만 읽었을 때에는 알 수 없던 다양한 레이어의 감성들이 어떻게 분포되어 있는지에 대한 통찰을 얻게 되었다.

(2) ‘저출산’ 연관 키워드 분석

💡 ‘저출산’ 연관 키워드를 이용

💡 조회 기준 또한 연관성으로 설정

query = "저출산+양육비"
start_date = '2022-06-01T00:00:00Z'  
end_date = '2023-05-31T23:59:59Z' 
order_option = 'relavance'

1. 키워드 선정 기준

2. 키워드 5개

1️⃣ 양육비 (경제적 측면)

2️⃣ 집값 (경제적 측면)

3️⃣ 딩크 (자녀에게 매여 살고 싶지 않다는 자유의 측면)

4️⃣ 육아휴직 (일, 커리어에 대한 우려)

5️⃣ 젠더 (일, 커리어에 대한 우려, 독박 육아)

3. 분석 내용 1

💡 1. 전체 댓글에서 언급된 단어의 빈도수를 기준으로 상위 50개를 추출한다.

💡 2. 주로 언급된 단어의 패턴 변화를 확인한다.


flourish를 이용한 시각화

  • 저출산+양육비 : 출산, 결혼, 헤어롤,여자, 남자, 문제 등
  • 저출산+집값 : 인구, 사람, 출산, 부동산, 지방 등
  • 저출산+딩크: 애, 육아, 결혼, 남편, 여자, 아빠, 남자 등
  • 저출산+육아휴직: 육아, 출산, 휴직, 기업, 회사, 일, 여자, 눈치 등
  • 저출산+젠더: 여성, 주차장, 전용, 이해, 일, 배려, 정치, 남자, 말 등
  • 기타 결과

분석 결과

저출산 담론의 복합적인 모습저출산과의 연관 키워드로 영상을 조회했을 때 남성, 여성, 아빠와 같은 단어들이 주로 언급되면서도, 헤어롤, 주차와 같은 젠더 문제의 키워드도 상위에 있는 것으로 나타나, 저출산 담론의 복합적인 모습을 알 수 있다.


3. 분석 내용 2 : 의미 연결망 분석

사회 연결망 분석이란?

  • 분석 대상 및 분석대상들간의 관계를 연결망 구조로 표현하고 이를 계량적으로 분석하는 기법

의미 연결망 분석이란?

  • 위의 결과를 텍스트 내 단어의 관계에 적용한 것이 의미 연결망 분석으로, 의미 연결망 분석에서는 일정 범위 내에서 동시 출현한 어휘를 서로 연결된 것으로 간주하여 이 연결 관계를 분석한다.
    출처 (by 이수안연구소)

1️⃣ 연관 검색어에서 댓글이 가장 많았던 담론인 ‘딩크’의 자료를 바탕으로 의미 연결망 분석을 진행한다.

2️⃣ 연결 중심성을 바탕으로 분석을 진행한다.

처음 의미연결망 분석을 진행하였을 때는 데이터의 양이 많아 선명한 결과를 얻을 수 없었고, 이에 따라 연결 중심성이 높은 30개 단어를 뽑아 아래와 같이 subgraph를 작성하였다.


연결 중심성이란?

  • 가장 기본적이고 직관적으로 중심성을 측정하는 지표로, 텍스트에서 다른 단어와의 동시 출현 빈도가 높은 특정 단어를 연결 중심성이 높다고 본다. 연결 정도로만 측정하면 연결망의 크기에 따라 달라져 비교가 어렵기 때문에 여러 방법으로 표준화한다.


분석 결과

막대 그래프를 통해 ‘남편’, ‘남자’의 순위가 높다는 것을 확인할 수 있다. 저출산 담론에 있어서 현 시점, ‘남편’, ‘남자’의 의미와 그 역할에 대한 중요성이 커졌음을 나타낸다고 분석할 수 있다.


[2] 가치관 변화의 측면 - 분석 결과

1️⃣ ‘여자’ 키워드가 사라지다

  • ‘남자’와 ‘남편’, 이들의 역할에 대한 의미와 중요성 측면에서의 목소리가 커졌다.
  • 전통적으로 ‘여성' 책임론적이었던 저출산 담론에서 ‘성 역할’에 대한 인식 변화의 가치가 크게 반영되어 변화하고 있음을 알 수 있다.

2️⃣ 국가적 관점이 아닌 개인적 관점

  • ‘인구’, ‘생산'과 같은 단어에서 ‘행복', ‘사랑'과 같은 개인의 감정을 나타내는 단어로의 변화로,
  • 저출산을 바라보는 관점이 ‘국가적 관점'에서 ‘개인적 관점'으로 변화했음을 알 수 있다.

[ 개선사항 및 기대효과 ]

인사이트 도출

1️⃣ 경제적 여유가 없어서 출산을 하지 않는다?

  • 근로소득 2.4배 차이의 상하위 3개 구들의 출산율, 혼인율에서 유의미한 차이가 없다는 것은 경제적 이유가 저출산의 주된 원인이라는 통념과 상반된다.
  • 저출산의 원인을 ‘경제적 관점’만으로 단순하게 볼 수 없다.

2️⃣ 성 역할 인식 변화와 개인적 관점의 부상

  • 전통적 성 역할에 대한 인식 변화
  • 저출산을 바라보는 관점이 ‘국가적 관점'에서 ‘개인적 관점'으로의 변화

기대효과

1️⃣ 저출산 이슈를 경제적 요인에 의한 문제로만 단정짓지 않고 가치관 변화젠더 문제인식의 관점에서 접근하도록 촉구하는 효과

2️⃣ 따라서 경제적 뒷받침만으로는 저출산 문제가 해결될 수 없으며, 이러한 방향의 현재 정책적 접근을 재검토할 필요성 제기


분석에 사용된 도구 및 방법

[1] 분석 도구

  • SQL
  • Youtube API
  • Open AI API
  • khaiii

[2] 시각화 도구

  • matplotlib(python)
  • word cloud(python)
  • flourish

[ 개발 후기 및 느낀점 ]

  • 사람들의 비교적 솔직한 생각을 알 수 있는 공간이 온라인이라고 판단했고, 또한 개인적으로 쉽지 않았던 크롤링을 공부해 볼 수 있다는 생각에 유튜브 영상 댓글 크롤링을 떠올리게 되었다.
  • 학습했던 방식은 아니었지만 댓글을 읽어오는 과정, 해당 댓글의 의미를 분석하며 진행했던 형태소 분석 등을 통해 데이터 분석에서 데이터 전처리의 중요성을 알게 되었다.
profile
데이터 분석가를 꿈꾸는

0개의 댓글