프로젝트 개요 | 프로젝트 수행 절차 및 방법 | 개선사항 및 기대효과 | 개발후기 및 느낀점 |
---|---|---|---|
1. 구성원 및 역할 | 1. 가설 설정 | 1. 인사이트 도출 | - |
2. 문제의 제기(기획 배경 및 목표) | 2. 경제적 측면 | 2. 기대효과 | |
- | 3. 가치관 변화 측면 | 3. 분석에 사용된 도구 및 방법 |
백은서(기여도 60%) | B | C |
---|---|---|
1. 시점별 댓글 수집 및 분석 | 1. 통계 수집 시각화 | 1. 시점/주제별 댓글 수집 및 분석 |
2. 형태소 분석 | 2. 서울시 코로플레스 맵 제작 | 2. 댓글 추세 분석 |
3. 감성 분석 | 3. 소득 상하위구 통계적 비교 | 3. 의미연결망 분석 |
4. 포트폴리오 및 발표자료 제작 | ||
5. 발표 |
1. 문제의 제기
1️⃣ 경제적 요인 : 경제적 지원이 뒷받침되면 혼인율과 출산율이 높아질 것인가?
2️⃣ 가치관 변화 : 아니면 가치관 변화에 따라 출산율의 패턴이 변화한 것일까?
💡 경제적 요인과 저출산을 둘러싼 여론의 변화를 분석해 원인과 대책을 짚어본다.
💡 소득과 출산율, 혼인율 간의 상관관계를 알아보기 위해 서울시 내 자치구들 비교
1️⃣ 국세청, 통계청에서 관련 자료 수집해 데이터베이스에 저장
2️⃣ SQL로 통계자료를 불러와 Pandas, Numpy, statsmodels 등 파이썬 통계 라이브러리를 이용해 분석
3️⃣ folium, Geo Pandas 등 파이썬 지도 라이브러리를 이용해 코로플레스 맵(지도상 히트맵)을 제작해 구별 지표 비교 시각화
1️⃣ 소득 상위 3개 구와 하위 3개 구 추출
2️⃣ 각 구의 신혼부부 비중 차이 확인
3️⃣ 코로플레스 맵(지도상 히트맵) 제작을 통해 구별 지표 비교 시각화
4️⃣ 소득 상하위 3개구들을 대상으로 소득과 출산율의 상관관계와 인과관계 분석
5️⃣ 소득 상하위 3개구들을 대상으로 소득과 혼인율의 상관관계와 인과관계 분석
1️⃣ 경제적 여유가 없어서 출산을 하지 않는다?
2️⃣ 그렇다면 왜?
1️⃣ 출생아 수와 합계출산율 추이 통계 자료
2️⃣ 유튜브에 ‘저출산’ 키워드를 바탕으로 조회수가 높은 상위 영상의 댓글 내용을 비교하며 가치관 변화 양상을 분석한다.
1️⃣ 통계청의 사회조사 자료를 바탕으로 혼인과 출산에 대한 가치 파악
2️⃣ Youtube API를 이용한 영상 댓글 crawling
3️⃣ 댓글 내용을 분석하기 위해 형태소 분석 진행
4️⃣ 단어의 의미를 감성 분석과 의미 연결망을 이용하여 분석
1️⃣ ‘저출산’에 대한 국민들의 생각을 유튜브 댓글 내용을 통해 분석한다.(2014년과 현 시점의 비교)
YOUTUBE는 뉴스뿐만 아니라 다큐멘터리 등 다양한 콘텐츠가 모여 있어 의견을 모으기에 적합한 플랫폼이라 판단
2️⃣ 현 시점(2023년)과 출산율이 낮아지기 시작한 시점(2015년)을 비교한다.
3️⃣ 댓글에 많이 언급된 상위 단어의 의미를 분석하여 저출산과 관련한 가치관을 알아보고 비교한다.
💡 ‘저출산’을 키워드로 조회수 상위 영상 선정
💡 영상 댓글 크롤링
query = "저출산"
start_date = '2022-06-01T00:00:00Z'
end_date = '2023-05-31T23:59:59Z'
order_option = 'viewCount'
1. 영상 검색 키워드 : 저출산
2. 영상 선정 및 댓글 분석 기준 : 출산율 감소 시기와 현 시점 비교
1️⃣ 영상 업로드 날짜
2️⃣ 영상 조회수 / 상위 5개
3️⃣ 댓글 중 빈도수 상위 50개의 단어 추출
💡 1. 전체 댓글에서 언급된 단어의 빈도수를 기준으로 상위 50개를 추출, ‘저출산’에 대한 생각을 알아본다.
💡 2. 댓글의 좋아요를 하나의 댓글로 여겨 좋아요 수를 1점으로 가중치화하여 추출해 본다.
1️⃣ 문장에서 이모티콘, br tag 등 불필요한 부분을 제거하는 전처리
2️⃣ 단어의 언급을 살피기 위하여 문장의 형태소 분석을 통해 명사만을 추출한다.
💡 형태소 분석 : 카카오의 Khaiii 형태소 분석기 이용
3️⃣ 추출된 명사 데이터를 바탕으로 word cloud, flourish 시각화 자료를 통한 비교
워드 클라우드
출처: 한국행정연구원,「사회통합실태조사」, 2022, 2023.06.06, 기관별 신뢰 정도
14년도와 현 시점, 두 영상의 댓글을 들여다 보면, 공통적으로는 정부와 관련된 단어가 많이 언급되었다는 것을 알 수 있다. 통계청의 기관별 신뢰도 조사 결과를 함께 보면 2014년과 2022년 모두 정부 부처에 대한 불신이 5-60퍼센트 가량을 차지한다는 사실을 알 수 있다. 국민들은 위기 상황에서 정책적인 부분에 많은 기대를 하지만, 결과적으로 국민들과 정부의 방향이 일치하지 않는다는 것 또한 알 수 있다.
인구, 국가, 생산과 같은 단어에서 행복, 사랑과 같은 개인의 감정이 담긴 의미의 단어들의 언급으로의 변화를 미루어 보아 국가적인 관점에서 개인적인 관점으로 변화했음을 알 수 있다.
기타 시각화
1. 기간 중 저출산 조회시 영상 수 추이
2. 저출산 조회 영상 상위 5개 댓글 수 추이
3. 연도별 단어 빈도수 추이
4. 2014년과 2023년을 비교한 댓글 추이
💡 댓글에서 언급된 단어의 의미와 단어간 연관성을 파악하고자 감성 분석과 의미연결망 분석을 이용한다.
💡 감성 분석에는 “Open AI API”를 이용하고, “Chat GPT 4”를 이용해 그 결과를 분석한다.
💡 단어 의미의 분석에 앞서 의미 분석에 방해가 되는 조사 등은 형태소 분석을 이용해 제거한다.
💡 또한 의미없는 외자 등 형태소 분석기가 걸러내지 못한 명사들은 사용자 금지어 사전을 만들어 걸러낸다.
감성 분석이란?
- 텍스트에 나타난 사람들의 태도, 의견, 성향과 같은 주관적인 데이터를 분석하는 자연어 처리 기술
TF-IDF 분석이란?
- 특정 단어의 등장 빈도와 역빈도를 곱한 값으로 텍스트 데이터에서 각 단어의 중요도를 계산하는 통계 기법
감성 사전을 통해 분석한 단어 빈도 그래프
TF-IDF 분석
Chat GPT 4의 세부 분석 결과
Cluster 0 : 긍정적 감정과 관련된 단어들로 구성. 예를 들어 감사, 즐거움, 고민, 친절함 등의 단어
Cluster 1 : 다양한 감정들이 섞여있는 단어들로 구성. 희망, 놀람, 실망, 자부심 등의 단어
Cluster 2 : 긍정적인 감정과 관련된 단어들로 구성. 기쁨, 감동, 행복, 존경, 환영, 확신, 열정, 애정, 사랑스러움 등의 단어
Cluster 3 : 다양한 감정과 관련된 단어들로 구성. 칭찬, 슬픔, 배려, 흥미, 신뢰, 호감, 화려함 등의 단어
Cluster 4 : 비교적 작은 그룹이며 긍정적인 감정들과 부정적인 감정들이 혼합되어 있는 단어들로 구성. 사랑, 기대, 화남 등의 단어
각 클러스터는 서로 다른 감정 또는 관련된 단어들을 그룹화한 것으로 보인다. 이렇게 클러스터링된 결과를 바탕으로 각 그룹의 주제나 의미를 추가적으로 분석할 수 있다.
💡 ‘저출산’ 연관 키워드를 이용
💡 조회 기준 또한 연관성으로 설정
query = "저출산+양육비"
start_date = '2022-06-01T00:00:00Z'
end_date = '2023-05-31T23:59:59Z'
order_option = 'relavance'
1️⃣ 양육비 (경제적 측면)
2️⃣ 집값 (경제적 측면)
3️⃣ 딩크 (자녀에게 매여 살고 싶지 않다는 자유의 측면)
4️⃣ 육아휴직 (일, 커리어에 대한 우려)
5️⃣ 젠더 (일, 커리어에 대한 우려, 독박 육아)
💡 1. 전체 댓글에서 언급된 단어의 빈도수를 기준으로 상위 50개를 추출한다.
💡 2. 주로 언급된 단어의 패턴 변화를 확인한다.
flourish를 이용한 시각화
- 기타 결과
저출산 담론의 복합적인 모습저출산과의 연관 키워드로 영상을 조회했을 때 남성, 여성, 아빠와 같은 단어들이 주로 언급되면서도, 헤어롤, 주차와 같은 젠더 문제의 키워드도 상위에 있는 것으로 나타나, 저출산 담론의 복합적인 모습을 알 수 있다.
사회 연결망 분석이란?
- 분석 대상 및 분석대상들간의 관계를 연결망 구조로 표현하고 이를 계량적으로 분석하는 기법
의미 연결망 분석이란?
- 위의 결과를 텍스트 내 단어의 관계에 적용한 것이 의미 연결망 분석으로, 의미 연결망 분석에서는 일정 범위 내에서 동시 출현한 어휘를 서로 연결된 것으로 간주하여 이 연결 관계를 분석한다.
출처 (by 이수안연구소)
1️⃣ 연관 검색어에서 댓글이 가장 많았던 담론인 ‘딩크’의 자료를 바탕으로 의미 연결망 분석을 진행한다.
2️⃣ 연결 중심성을 바탕으로 분석을 진행한다.
처음 의미연결망 분석을 진행하였을 때는 데이터의 양이 많아 선명한 결과를 얻을 수 없었고, 이에 따라 연결 중심성이 높은 30개 단어를 뽑아 아래와 같이 subgraph를 작성하였다.
연결 중심성이란?
- 가장 기본적이고 직관적으로 중심성을 측정하는 지표로, 텍스트에서 다른 단어와의 동시 출현 빈도가 높은 특정 단어를 연결 중심성이 높다고 본다. 연결 정도로만 측정하면 연결망의 크기에 따라 달라져 비교가 어렵기 때문에 여러 방법으로 표준화한다.
막대 그래프를 통해 ‘남편’, ‘남자’의 순위가 높다는 것을 확인할 수 있다. 저출산 담론에 있어서 현 시점, ‘남편’, ‘남자’의 의미와 그 역할에 대한 중요성이 커졌음을 나타낸다고 분석할 수 있다.
1️⃣ ‘여자’ 키워드가 사라지다
2️⃣ 국가적 관점이 아닌 개인적 관점
1️⃣ 경제적 여유가 없어서 출산을 하지 않는다?
- 근로소득 2.4배 차이의 상하위 3개 구들의 출산율, 혼인율에서 유의미한 차이가 없다는 것은 경제적 이유가 저출산의 주된 원인이라는 통념과 상반된다.
- 저출산의 원인을 ‘경제적 관점’만으로 단순하게 볼 수 없다.
2️⃣ 성 역할 인식 변화와 개인적 관점의 부상
- 전통적 성 역할에 대한 인식 변화
- 저출산을 바라보는 관점이 ‘국가적 관점'에서 ‘개인적 관점'으로의 변화
1️⃣ 저출산 이슈를 경제적 요인에 의한 문제로만 단정짓지 않고 가치관 변화와 젠더 문제 등 인식의 관점에서 접근하도록 촉구하는 효과
2️⃣ 따라서 경제적 뒷받침만으로는 저출산 문제가 해결될 수 없으며, 이러한 방향의 현재 정책적 접근을 재검토할 필요성 제기
[1] 분석 도구
- SQL
- Youtube API
- Open AI API
- khaiii
[2] 시각화 도구
- matplotlib(python)
- word cloud(python)
- flourish