[데이터분석] 코로나 관련 데이터 분석 최종

kkily·2022년 1월 22일
0

2021가을학기

목록 보기
3/4
post-thumbnail

기말 과제 소개와 설명

어쩌다보니 콘텐츠 데이터 분석 수업 종강을 한지 약 1개월만에 정리해 쓰게 됐다.

나는 3가지 문제를 정의했는데,

  1. 코로나 안심 병원이 각 지역에 충분히 존재할까?
  2. 백신 접종률이 높은 지역은 코로나 환자 사망률이 낮을까?
  3. 코로나로 인한 이혼율에 변화가 있을까?

라는 주제로 데이터 분석을 진행하였다.

데이터 분석을 진행한 대시보드는 https://public.tableau.com/app/profile/dahyeon.han/viz/_16399842711690/sheet4#1 에서 확인할 수 있다. tableau라는 툴을 써서 인터랙티브한 대시보드를 만들었으니 들어가봐도 좋을 것같다.

사용한 데이터는 https://docs.google.com/spreadsheets/d/1szJbPrvTPIFuRbgLSNZePutHjSvAl9ku/edit?usp=sharing&ouid=109353399841237589265&rtpof=true&sd=true 에 모아두었다. (연두색으로 사용, 정제한 필드를 표시해둠)

1. 코로나 안심병원이 각 지역에 충분히 존재할까?

  • 정의 배경

코로나 의심환자가 많아지면서 일반 환자들이 병원을 갈 때 망설여지는 경우가 있다 이에
따라 병원 내 감염으로부터 환자를 안전하게 보호하기 위하여 호흡기 환자와 비호흡기 환자
를 분리하여 진료하는 국민 안심병원이 생겼다 이처럼 코로나 환자가 많은 곳에서는 국민 안
심병원 역시 일반 환자들의 걱정을 덜기 위해 많아야 하지 않을까라는 생각이 들었고 과연
국내 현황은 어떤지 알아보고 싶어 이 주제를 결정하게 되었다.

시도별 코로나 확진자 수의 헤더를 변경했다. 안심병원 탭에서 =COUNTIF 함수를 이용해 각 지역의 안심병원수를 셌다. 코로나 확진자 수를 xml 데이터를 csv 데이터로 변환해 데이터를 얻었다. 전체 확진자와 지역 확진자의 비율을 이용해 안심병원의 수가 100개(비율을 이용했기 때문에 100개라고 가정)라고 할 때 1110 코로나 확진자수 탭에 필요한 안심병원의 수가 몇개인지 구했다. (각 지역에 적어도 지역확진자/전체확진자 비율만큼은 안심병원이 존재해야 한다고 판단했다.) 전체 지역 안심병원 수와 각 지역 안심병원수의 비율을 구해 전국의 안심병원수가 100개라고 할 때 현재 있는 안심병원의 수를 안심병원 탭에 구했다. 그래서 필요한 안심병원의 수 – 존재하는 안심병원의 수 필드를 만들어 시각화에 활용했다.

  • 대시보드 설계와 구현

그래프와 지도 버전으로 두개의 시각화를 진행했다. 왼쪽은 확진자 수와 필요한 안심병원수-존재하는 안심병원수를 이중 축을 이용해 나타냈다. 주황색 원은 전국에 100개의 안심병원이 있다고 할 때(비율을 이용했기 때문에 이렇게 가정하였음.) 각 지역에 필요한 안심병원의 개수 – 존재하는 안심병원의 개수를 계산한 것을 나타낸다. 값이 작을수록 그 지역에 안심병원의 수가 부족하고 클수록 충분한 것을 의미한다. 꺾은선 그래프는 확진자 수를 의미한다. 오른쪽 지도를 보면 부족한 지역은 붉은색에 가깝고 충분한 지역은 푸른색에 가깝다. 서울, 경기, 대구가 다른 지역들에 비해 부족한 것을 알 수 있다.

  • Discussion

필요 안심병원 수 – 존재하는 안심병원 수가 0을 넘으면 충분한 것으로 볼 수 있다. 따라서, 경기, 대구, 서울을 제외하고는 코로나 안심병원이 각 지역에 충분히 존재한다. 확진자 수가 월등히 많은 경기와 서울에는 코로나 안심병원의 수를 늘려야할 필요가 있을 것이다.

2. 백신 접종률이 높은 지역은 코로나 환자 사망률이 낮을까?

  • 정의 배경

코로나 백신을 맞은 사람들이 증가함에도 불구하고 돌파감염도 일어나고 확진자 수도 줄지 않고 있어서 백신 접종의 효용성을 체감하지는 못하는 것 같아 백신 관련 주제를 정하게 되었다. 그래도 잘 알려진 백신의 주 효과는 확진자 수 감소보다는 사망자 수나 위중증 환자 수를 줄여주는 효과가 더 크기 때문에 백신 접종률이 높은 지역은 코로나 환자 사망률이 낮은지 궁금해 선택하게 되었다.

시도별 코로나 확진자 수, 접종자 수의 헤더를 변경했다. 주민등록 인구와 2회차 당일누적 데이터를 이용해 각 지역별 백신접종비율을 접종자수 탭에 구했다. 각 확진자 수 탭에 사망자 수와 확진자 수의 비율을 이용해 사망률을 구했다.

  • 대시보드 설계와 구현

왼쪽은 지역별 코로나 2차 백신 접종률 차이를 나타낸 꺾은선 그래프이다. 세종이 다른 지역에 비해 접종률이 가장 낮고 전남이 가장 높다. 2021년 12월 2일에 모든 지역의 접종률이 70%는 넘었다. 오른쪽은 지역별 2차백신 접종 전후의 사망률 차이를 나타낸 그래프이다. 이중축과 병렬막대를 이용했다. 백신접종비율은 막대그래프로 접종 전과 후의 사망률 비교는 꺾은선 그래프를 이용해 나타냈다. 제주를 제외한 모든 지역에서 백신 접종 후 사망률이 낮아졌다. 사망률이 가장 크게 낮아진 곳은 전북이며 오히려 높아진 곳은 제주이다.

  • Discussion

제주를 제외하고는 백신 전보다 후의 사망률이 현저하게 낮아진 것을 볼 수 있다. 또한, 제주 역시 높아지기는 했지만 접종 전 0.176%, 접종 후 0.239%로 미미하게 증가했다. 사망률을 낮춘 다른 요인도 있을 수 있겠지만 2차 백신 접종이 코로나 환자들의 사망률을 감소시키는 데에 영향을 끼쳤다고 볼 수 있을 것이다.

3. 코로나로 인한 이혼율에 변화가 있을까?

  • 정의 배경

코로나로 인해 집에서 많은 시간을 보내게 되면서 배우자와의 갈등이 빚어짐에 따라 이혼율이 높아질 수 있겠다는 생각이 들었다. 또한, 코로나 때문에 이혼했다라는 외국 기사를 본 적이 있어서 국내도 그런 상황이 나타났는지 궁금해 이 주제를 선택하게 되었다.

  • 사용한 데이터의 원본

이혼건수, 조이혼율: https://kosis.kr/statisticsList/statisticsListIndex.do?menuId=M_01_01&vwcd=MT_ZTITLE&parmTabId=M_01_01&outLink=Y&parentId=A.1;A_3.2;#content-group (이혼건수)

시도/시군구/월별 이혼: https://kosis.kr/statisticsList/statisticsListIndex.do?menuId=M_01_01&vwcd=MT_ZTITLE&parmTabId=M_01_01&outLink=Y&parentId=A.1;A_3.2;#A_3.2  (시군구별, 2019.07~2019.12까지 데이터, 2020.07~2020.12까지 데이터)

코로나로 인해 이혼율에 변화가 있으려면 코로나 국내 첫 감염으로부터 약 3개월정도는 지나야 한다고 생각해서 2020년 7월부터의 데이터를 사용하느라 19년과 20년의 하반기 데이터를 사용했다.

  • 데이터 전처리와 정제

19 시도 월별 이혼 탭에 2019 7월부터 12월까지의 이혼 총 수를 sum을 이용해 구했다. 2020 7월부터 12월까지의 이혼 총 수를 sum을 이용해 20 시도 월별 이혼 탭에 구했다. 이혼수 차이 탭에 2020년과 2019년 이혼수 차이를 하반기와 각 월별로 구했다.

  • 대시보드 설계와 구현

왼쪽 막대그래프를 보면 전국의 이혼율은 2019년과 2020년을 비교했을 때 2020년이 더 낮다. 오른쪽 그래프는 2019년과 2020년의 월별 이혼수 차이를 나타낸 그래프이다. 7월, 9월, 12월은 2020년 이혼수가 더 많고 8월, 10월, 11월은 2019년 이혼 수가 더 많다. 종합적으로 하반기 이혼수를 보면 2019년에 이혼을 더 많이 한 것을 알 수 있다. 지도 시각화는 지역별 이혼수 차이를 나타낸 것이다. 값이 붉은색에 가까우면 2020년 이혼수가 더 많았던 지역을 뜻하고 푸른색에 가까우면 2019년 이혼수가 더 많았던 지역을 뜻한다. 서울, 충남, 세종, 부산이 붉은색으로 2020년에 이혼수가 더 많았던 지역이다.

  • Discussion

2019년 하반기와 2020년 하반기 데이터를 비교했을 때 2020년의 이혼율이 오히려 낮다. 따라서, 코로나로 인한 불화로 이혼수가 2020년에 더 늘어날 것이라고 예측했는데 그러한 변화는 보이지 않는다.

자평

tableau라는 툴을 사용해 인터랙티브한 대시보드를 구현할 수 있어서 재미있었던 경험이었다. 또한, 개인적인 궁금증들을 조금이나마 해소할 수 있었기 때문에 의의가 있다는 생각이 든다. 코로나 환자를 치료해주는 병원이나 병상 수가 각 지역에 충분한가라는 주제로 조사를 진행하고 싶었는데 데이터를 구하지 못해 진행하지 못하게 된 점이 아쉽기도 하지만 전체적으로 만족스러운 프로젝트였다.

profile
낄리의 개발 블로그╰(*°▽°*)╯

0개의 댓글