서울시, 코로나19에도 안심…따릉이 이용 전년 대비 약67%↑
서울특별시 새소식, 2020-04-08, https://news.seoul.go.kr/traffic/archives/503031
2020년. 올해 1월 1일을 떠올려보면 고작 10의 자리의 숫자 하나가 바뀔 뿐인데 다른 때와는 다르게 더 설레고 들떴었다. 그런데 막상 맞닥뜨린 2020년의 모습은 상상과 많이 달랐다. 코로나19가 전세계를 휩쓸었고, 생활 방식 하나하나에 많은 변화를 가져왔다. 마스크 없이는 외출을 할 수 없게 되었고, 예전처럼 많은 사람이 한 자리에 모여 음식을 나눠먹으며 웃고 떠들 수 없어졌다.
코로나19를 피하기 위해서는 이른바 '3밀(밀폐·밀집·밀접)' 환경을 피해야 하기 때문에, 대중교통을 이용하기도 꺼려지고 실내 활동을 하는 것도 제약이 생겼다. 이 때문인지 최근 서울시가 발표한 바에 따르면 서울시 공공자전거 '따릉이'의 사용이 전년 대비 약 67% 증가했다고 한다. 그런데 이 소식을 듣고 한 가지 궁금증이 생겼다. 과연 코로나19 이전과 이후에 단순히 따릉이 사용량의 수치적 변화만 생겼을까? 직장인들은 재택근무를 하는 경우가 늘어났고, 학생들은 오프라인 등교를 매일 하지 않는다. 그렇다면 기존에는 출퇴근, 등하교 시간에 집중되었던 시간별 따릉이 사용률에 무언가 변화가 있지 않을까? 사용자의 연령대 분포도 전과 달라지지 않았을까?
그래서 서울 열린데이터광장에서 제공하는 '서울특별시 공공자전거 이용정보(시간대별)' 데이터를 통해 코로나19 이전과 이후에 따릉이 사용 패턴에 어떠한 변화가 생겼는지 살펴보기로 했다.
따릉이의 사용 패턴은 날씨의 영향을 받기 때문에, 보다 정확한 분석을 위해서는 같은 기간끼리 비교를 해야 한다. 2020년의 데이터셋이 6월 30일까지 주어져 있기에 코로나19 이전인 2017년, 2018년, 2019년 역시 6월 30일까지만 분석에 사용하기로 했다. 그리고 코로나19가 정확히 2020년 1월 1일부터 국내에 영향을 줬던 게 아니기 때문에 기준점을 설정할 필요가 있었다. 따라서 국내의 감염병 위기경보가 '경계'단계로 격상되었던 1월 27일을 기준으로 삼았다.
데이터 원본 파일에는 아래와 같은 정보가 들어있다.
분석을 시작하기에 앞서, 데이터 전처리를 진행하였다.
먼저, 대여소 번호가 3번, 5번, 10번, '중랑정비팀test 1005'인 데이터들은 대여소명이 NaN이었다. 따릉이 공식 홈페이지를 통해 확인한 결과, 해당 번호들은 모두 대여소 목록에 없는 번호들이었으며 따릉이 대여와 관련된 곳인 것 같았다. 따라서 사용자들에 의해 생성된 데이터가 아니므로 대여소명이 NaN인 row들도 모두 제거하기로 하였다. 이와 함께, 대여소명이 '상암센터 정비실', '위트콤', '위트콤공장', '중랑센터'인 경우, 대여소 번호가 101보다 작은 경우 혹은 9000번 이상인 경우도 모두 대여소 목록에 없는 대여소에서 생성한 데이터이므로 이들도 함께 제거하였다.
성별의 경우 2017년부터 2019년의 데이터셋에서는 총 2,092,128개(전체의 24%)가, 2020년의 데이터셋에서는 총 4,157,934개(전체의 54%)가 NaN이었다. 해당하는 row를 제거하기에는 너무 수가 많아서 확인해봤더니 2018년 6월 이후부터 신규 가입 시 성별이 선택 기재사항으로 바뀌었다고 한다. 따라서 성별의 NaN들을 'None'으로 변경해주었다.
그리고 이동 거리와 사용 시간이 모두 0인 데이터도 제거하였다. 이동 거리와 사용 시간이 모두 0인 것은 따릉이를 대여했지만 사용을 하지 않고 바로 반납한 경우이거나, 아니면 거리 측정 장치나 시간 기록 장치에 문제가 생겨 제대로 기록되지 않은 경우일 것이다. 전자의 경우는 따릉이의 사용 패턴 분석에 적합하지 않은 데이터이므로 제거해야 한다. 그러나 주어진 정보만으로는 각 데이터가 전자에 해당하는지, 후자에 해당하는지를 구분할 수 없었다. 다행히 이동 거리와 사용 시간이 모두 0인 데이터는 전체 데이터의 약 0.1%도 되지 않기 때문에 분석 결과에 큰 영향을 주지 않을 것이므로 제거하기로 하였다.
데이터를 살펴보니 이상한 것들이 몇 가지 있었다. 예를 들어, 이동 거리를 사용 시간으로 나눠 보았을 때 속도가 200km/h를 넘는 데이터도 있었고 사용 시간은 0분인데 이동 거리는 몇 km나 되는 데이터도 있었다. 따라서 이상치를 처리할 필요가 있었다. 그러나 이러한 이상치는 코로나19 이전과 이후의 평균 이동 거리와 평균 사용 시간을 비교할 때는 문제가 되지만 연령대 분포 변화나 대여권 종류 분포 변화 등을 비교할 때에는 문제가 되지 않기 때문에 삭제하지 않고 별도로 표시를 한 column을 추가하기로 하였다. 추가한 항목은 아래와 같다.
센서 이상
기록 이상
분실
전처리 결과 최종적으로 생성된 데이터 프레임의 column들은 아래와 같다.
사용한 데이터 프레임의 컬럼 목록
코로나19 이전과 이후의 따릉이 사용 패턴의 차이를 알아보기 위해서, 다음과 같은 4가지 질문을 던져보았다.
앞서 언급했듯이, 2020년의 따릉이 사용량은 2019년에 비해서 증가하였다. 그런데 과연 2020년의 사용량 증가의 이유가 코로나19 때문이라고 콕 찝어서 말할 수 있을까? 이를 알아보기 위해서 2017년부터 2020년까지 동일한 기간 동안의 따릉이 사용량을 비교해보았다.
전년 대비 증가율
- 2018년: 약 97.9%
- 2019년: 약 66.8%
- 2020년: 약 72.1%
2020년의 따릉이 사용량은 2019년에 비해서 증가하긴 하였다. 그러나 그래프를 보면 알 수 있듯이, 따릉이의 사용량은 매년 증가하고 있었다. 전년 대비 증가율을 계산해봤을 때, 2020년의 전년 대비 증가율은 약 72.1%였다. 이 수치가 다른 연도의 증가율에 비해서 월등하게 큰 값이 아니었고, 심지어 가장 큰 값도 아니었다. 코로나19 이전과 이후의 증가율에 큰 변화가 없기 때문에 2020년 따릉이 사용량 증가의 원인이 코로나19라고 단정짓기는 어렵다.
코로나19 때문에 따릉이의 사용자가 증가했다고 말하기 어렵더라도, 따릉이를 사용하는 사람들의 사용 패턴은 바뀔 수 있다. 코로나19로 인해 사람과의 접촉을 줄이기 위해서 지하철과 버스 대신 따릉이를 이용하는 사람이 많아지지 않았을까 하는 생각이 들었다. 그리고 만약 정말 따릉이가 대중교통을 대체하고 있다면 평균 이동 거리가 예전보다 길어지고 평균 사용 시간도 늘어날 것이라고 예상했다. 이러한 생각이 맞는지 확인하기 위해서 코로나19 이전과 이후의 평균 이동 거리와 평균 사용 시간을 비교해보았다. 이번 비교에서는 센서 이상, 기록 이상, 그리고 분실로 인한 정상적이지 않은 기록들을 제외하였다.
평균 이동 거리
- 코로나19 이전: 약 4,759m
- 코로나19 이후: 약 5,444m
코로나19 이후의 평균 이동 거리는 약 5,444m로 코로나19 이전에 비해 약 14% 증가하였다. 코로나19 때문에 따릉이 사용 패턴이 변해서 평균 이동 거리도 길어질 것이라는 생각이 맞는 것 같아서 기뻤지만, 따릉이의 사용량 변화처럼 평균 이동 거리의 증가 원인이 코로나19라고 말하기는 어려울 수 있으므로 마음을 가라앉히고 연도별 평균 이동 거리 변화를 살펴보았다.
연도별 평균 이동 거리의 변화
전년 대비 증가율
- 2018년: 약 2.76%
- 2019년: 약 3.56%
- 2020년: 약 12.04%
따릉이 사용의 평균 이동 거리 역시 조금씩 매년 증가하고 있었다. 그런데 2020년의 전년 대비 증가율은 약 12.4%로 다른 연도와 비교했을 때 월등한 차이가 있었다. 코로나19 이전과 이후의 증가율의 수치가 확연히 다르다는 점을 볼 때, 코로나19가 사용자들의 따릉이 소비 방식에 영향을 줬을 것이라고 추측할 수 있다.
그럼 평균 사용 시간에는 어떠한 변화가 있는지 살펴보자.
평균 사용 시간
- 코로나19 이전: 약 33분
- 코로나19 이후: 약 41분
코로나19 이후 따릉이의 평균 사용 시간은 약 41분으로 코로나19 이전에 비해 약 24% 증가하였다. 이번에도 연도별 평균 사용 시간의 변화를 확인하였다.
연도별 평균 사용 시간의 변화
전년 대비 증감율
- 2018년: 약 - 1.18%
- 2019년: 약 + 0.89%
- 2020년: 약 +24.59%
코로나19 이전과 이후의 차이는 비교적 분명하였다. 2020년의 전년 대비 증가율은 약 24.59%로 변동폭이 가장 컸다. 이 역시 코로나19 이전과 이후의 증가율의 수치가 확연히 다르다는 점으로 보아, 코로나19가 사용자들의 따릉이 소비 방식에 영향을 줬을 것이라고 추측할 수 있다.
이 그림은 코로나19 이전의 따릉이 사용자들의 연령대와 대여권 종류에 대한 히트맵이다. 코로나19 이전에 따릉이 사용자 중 가장 많은 비율을 차지하고 있던 건 정기권 사용자이다. 특히 그 중에서도 20 ~ 40대의 사용량이 가장 많았다. 출퇴근 시간에 지하철 역이나 버스 정류장까지 이동 시 따릉이를 사용하는 사람이 많고, 이들은 따릉이를 매일 이용해야 하기 때문에 정기권을 주로 사용하므로 이러한 분포가 나타난 것으로 보인다. 하지만 코로나19 이후 재택 근무가 증가하였고, 학생들의 오프라인 등교일수는 감소하였다. 따라서 출퇴근과 등하교를 위해 따릉이를 사용하는 사람이 줄어들면서 코로나19 이후 따릉이 사용자 중에서 정기권을 사용하는 비율이 줄어들 것이라고 생각했다. 또한 운동을 하려는 사람, 실내 활동이 제한되어 실외 활동을 하려는 사람 등 새로운 그룹군의 사람들이 유입되면서 연령대 분포에도 변화가 생겼을 것이라고 생각했다.
위 그림은 코로나19 이전과 이후의 연령대와 대여권에 대한 히트맵을 나란히 그려본 것이다. 색깔이 칠해진 것을 보면 알 수 있듯이, 예상과 다르게 코로나19 이전과 이후의 사용자들의 전체적인 구성 비율에는 그렇게 큰 차이가 없었다.
cf) 코로나19 이전의 연령대와 대여권 종류에 대한 crosstab
연령대코드 | 단체권 | 일일권 | 일일권(비회원) | 정기권 |
---|---|---|---|---|
~10대 | 6898 | 85675 | 825 | 162686 |
20대 | 29286 | 1.08554e+06 | 37082 | 2.7571e+06 |
30대 | 10491 | 385401 | 9032 | 1.77019e+06 |
40대 | 11771 | 128757 | 3177 | 1.14411e+06 |
50대 | 1829 | 44621 | 1323 | 585813 |
60대 | 182 | 8760 | 329 | 149750 |
70대~ | 147 | 4228 | 859 | 48864 |
cf) 코로나19 이후의 연령대와 대여권 종류에 대한 crosstab
연령대코드 | 단체권 | 일일권 | 일일권(비회원) | 정기권 |
---|---|---|---|---|
~10대 | 13200 | 176841 | 0 | 233319 |
20대 | 23067 | 1.01652e+06 | 92 | 2.23355e+06 |
30대 | 7607 | 398565 | 58 | 1.44195e+06 |
40대 | 17628 | 176840 | 44 | 997768 |
50대 | 3191 | 61533 | 4 | 640577 |
60대 | 278 | 10482 | 1 | 175740 |
70대~ | 57 | 2557 | 0 | 33754 |
대여권별 비율 변화
위 그림은 코로나19 이전과 이후 각각의 대여권이 전체에서 차지하는 비율에 대한 bar plot이다. 위의 히트맵에서도 알 수 있었듯이, 코로나19 이전과 이후의 대여권 비율 차이가 거의 없다.
각 대여권의 연도별 사용량에 대한 line plot을 그려보았다. 왼쪽은 수치 그대로 그림을 그린 것이고, 오른쪽은 전년 대비 증감율을 그린 것이다. 그래프를 통해서 정기권, 일일권, 단체권의 사용량 모두 2020년까지 증가해왔다는 것을 알 수 있다. 그런데 일일권(비회원)의 증감율은 2019년까지 음수, 즉 계속 감소하는 추세였으나 2020년에는 전년 대비 약 41%가 증가하였다는 점이 특이하다. 하지만 일일권(비회원)의 사용량이 증가하하더라도 다른 대여권과 비교했을 때에는 사용량이 너무 적어서 전체에서 각 대여권이 차지하는 비율을 변화시키지는 못했다.
그리고 2020년의 일일권의 전년 대비 증가율이 정기권의 전년 대비 증가율보다 컸는데, 출퇴근과 등하교를 하지 않는 사람이 늘어나면서 정기권에 대한 수요보다는 일일권에 대한 수요가 증가하지 않았을까 하고 추측하였으나, 사용자 각각의 따릉이 사용 목적에 대한 데이터는 없어서 확인 할 수 없었다.
cf) 각 대여권의 전년 대비 증감률에 대한 표
2018 | 2019 | 2020 | |
---|---|---|---|
단체권 | 23.9163 | 249.287 | 62.8101 |
일일권 | 77.9754 | 59.073 | 109.598 |
일일권(비회원) | -98.5307 | -81.4474 | 41.1348 |
정기권 | 115.269 | 67.8935 | 62.8492 |
연령대 분포의 변화
코로나19 이전과 이후 각각의 따릉이 사용자 연령대 분포에 대한 bar plot이다. 미세하게 조금씩 차이는 있어보이지만, 20대, 30대, 40대 순으로 사용자가 많다는 점은 변하지 않았다.
각 연령대의 연도별 사용량에 대한 line plot을 그려보았다. 왼쪽은 수치 그대로 그림을 그린 것이고, 오른쪽은 전년 대비 증가율을 그린 것이다. 그래프를 통해서 모든 연령대에서 따릉이 사용량이 증가해 왔다는 것을 알 수 있다. 2020년에 전년 대비 증가율이 가장 큰 연령대는 ~ 10대로 148%가 증가하였다. 증가율 변화 폭이 가장 큰 연령대는 70대 이상으로 2018년과 2019년의 전년 대비 증가율은 각각 약 23%, 약 7%였는데, 2020년에는 81%가 전년 대비 증가했다. 이렇게 각 연령대별로 증가율의 차이가 있었기 때문에 연령대 분포 bar plot에서 미세하게 20대의 비율이 조금 줄고 10대의 비율이 조금 증가하는 등의 작은 변화들이 생기게 된 것 같다.
cf) 각 연령대의 전년 대비 증감률에 대한 표
2018 | 2019 | 2020 | |
---|---|---|---|
~10대 | 65.7685 | 219.763 | 148.21 |
20대 | 90.748 | 71.5359 | 58.1424 |
30대 | 100.537 | 51.7002 | 68.9115 |
40대 | 106.779 | 55.884 | 80.6953 |
50대 | 139.684 | 78.3715 | 99.7663 |
60대 | 117.06 | 76.5531 | 114.312 |
70대~ | 23.2651 | 6.73655 | 81.3051 |
대여권별 연령대 분포의 변화
재밌는 건 대여권별 연령대 분포 변화를 살펴봤을 때였다.
정기권의 연령대별 분포
일일권의 연령대별 분포
대여권 중 가장 많은 비율을 차지했던 정기권과 일일권의 연령대별 분포는 코로나19 이전과 이후에 큰 차이가 있지 않았다. 모두 20대가 가장 많았고, 그 다음으로는 30대가 많았다.
코로나19 이전과 달리 코로나19 이후에는 단체권에서 10대와 40대의 비율이 증가하였다. 위에서 단체권의 이용자 수가 증가하고 있는 추세라는 걸 확인했다. 따라서 새로운 인원의 유입 때문에 연령대 구성에 변화가 생겼다는 것을 기대해 볼 수 있다.
위 그림은 단체권의 사용 중 각 연령대의 연도별 사용량에 대한 line plot이다. 왼쪽은 수치 그대로 그림을 그린 것이고, 오른쪽은 전년 대비 증감율을 그린 것이다. 그래프를 보면 2020년에 전년 대비 증감률의 변화가 다양하다. 증가율이 증가한 연령대도 있는 반면, 감소한 연령대도 있다. 따라서 이러한 차이 때문에 단체권 사용자의 연령대 구성에 변화가 생겼다는 것을 확인할 수 있다.
cf) 단체권 사용량의 각 연령대의 연도별 전년 대비 증감률에 대한 표
2018 | 2019 | 2020 | |
---|---|---|---|
~10대 | 3.21361 | 966.484 | 126.687 |
20대 | 14.7705 | 349.522 | 11.5533 |
30대 | 23.8648 | 166.454 | 21.6925 |
40대 | 42.9539 | 78.508 | 192.338 |
50대 | 49.0446 | 123.718 | 204.776 |
60대 | 6 | 49.0566 | 251.899 |
70대~ | -37.1429 | -25 | 72.7273 |
일일권(비회원)의 연령대별 분포는 상당히 많이 변하였다.
역시 연도별 사용량 변화를 line plot으로 그려보았다. 왼쪽은 2017년부터 2020년까지의 그래프인데 2018년 이후의 값이 잘 보이지 않아서 2018년부터 2020년까지만 따로 그려보았다. 2020년에는 일일권(비회원) 30대와 40대의 수가 2019년에 비해서 미세하게 증가하였다. 2019년까지 계속 감소했던 일일권(비회원)의 사용량이 2020년에 증가한 것은 코로나19가 조금이라도 영향을 주지 않았을까 하고 생각했다.
다만, 2017년부터 2020년까지 20대의 일일권(비회원)의 사용이 매우 크게 감소하였다는 점을 고려했을 때, 코로나 이전과 이후의 일일권(삐회원)의 연령대 분포에서 30대와 40대의 비율이 높아진 것은 30대와 40대의 증가보다는 20대의 감소가 결정적인 원인이었을 것이다.
cf) 일일권(비회원) 사용량의 각 연도별 사용량
연령대코드 | ~10대 | 20대 | 30대 | 40대 | 50대 | 60대 | 70대~ |
---|---|---|---|---|---|---|---|
2017 | 818 | 36479 | 8865 | 3107 | 1288 | 320 | 849 |
2018 | 7 | 501 | 140 | 65 | 30 | 7 | 10 |
2019 | 0 | 102 | 27 | 5 | 5 | 2 | 0 |
2020 | 0 | 92 | 58 | 44 | 4 | 1 | 0 |
이번에는 따릉이 사용의 시간별 비율에 변화가 있을지 살펴보았다.
전체
위 그림은 평일과 주말 각각의 코로나19 이전과 이후 시간별 사용 비율에 대한 line plot이다. 서론에서 예상했던 것과 달리, 평일과 주말 모두 코로나19 이전과 이후에 큰 차이가 없다. 앞에서 코로나19 이전과 이후의 대여권 종류별 비율과 사용자의 연령대 분포가 크게 달라지지 않았고, 20대인 정기권 사용자가 코로나19 이전과 이후 모두 가장 많다는 것을 확인하였다. 코로나19 이전과 이후 따릉이 사용자의 특징이 크게 바뀌지 않아서 사용 패턴에도 변화가 없는 것 같다.
대여권별 차이
이번에는 대여권의 종류별로 시간별 사용 비율을 살펴보았다. 코로나19 이전과 이후의 전체 사용자들의 사용 패턴에 변화가 없는 이유가 따릉이 사용자의 특징이 크게 바뀌지 않았기 때문이 맞다면, 연령대 분포에 변화가 거의 없었던 정기권과 일일권은 시간별 사용 패턴에도 변화가 없을 것이고 연령대 분포에 차이가 발생한 단체권과 일일권(비회원)은 시간별 사용 패턴에 차이가 발생했을 것이다.
정기권과 일일권
정기권
일일권
코로나19 이전과 이후의 연령대 분포에 변화가 없었던 정기권과 일일권은 시간별 사용 비율의 변화도 거의 없다.
단체권
일일권(비회원)
코로나19 이전과 이후에 사용자를 구성하는 연령대 분포 변화가 있었던 단체권과 일일권(비회원)도 시간대별 사용 비율의 그래프 모양 차이가 크게 존재하지 않았다. 다만, 평일은 그래프 최고점의 시간대가 코로나19 전보다 조금 앞당겨졌다. 연령대의 변화는 따릉이 사용 패턴에 크게 영향을 미치지 않는 듯하다.
- 따릉이 사용량이 전년도 대비 증가한 건 사실이지만 코로나19 때문이라고 하기는 어렵다.
- 따릉이 사용의 평균 이동 거리, 사용 시간은 증가한 것에서 정말로 따릉이가 대중교통의 대체 수단으로 사용되었을 가능성을 보았다.
- 그러나, 사용자들의 특징(대여권 종류, 연령대 분포)는 크게 바뀌지 않았다.
- 시간별 사용량의 특징에도 변화가 없었다.
지금까지 코로나19 이전과 이후의 따릉이 사용 패턴을 비교해봤다. 물론 평균 이동 거리와 평균 사용시간이라는 달라진 점이 존재하기는 하나, 총 사용량이나 사용자들의 특징, 시간별 사용량에서는 큰 차이가 없었다. 즉, 코로나19는 따릉이 사용 패턴에 생각만큼 큰 영향을 미치지 않았다. 그렇다면 왜 예상과 달리 코로나19 이전과 이후에 따릉이 사용패턴이 크게 달라지지 않았을까?
먼저, 정말 코로나19가 따릉이 사용 패턴에 영향을 미치지 않았을 수 있다. 예를 들어, 재택 근무를 하거나 온라인 등교를 한다고 해도 물리적인 공간 이동을 하지 않아도 될 뿐이지 해당 시간대를 자유롭게 쓸 수 있는 건 아니다. 또한 따릉이로 출퇴근을 하는 이용자가 많아지더라도 따릉이로 이동할 수 있는 거리에는 한계가 있으므로 대중 교통으로 편도 2시간 씩 출퇴근을 하던 사람이 갑자기 따릉이를 사용해서 출퇴근을 하지도 않을 것이다. 따라서 사람들의 생활 패턴이 바뀌지 않아서 따릉이의 사용 패턴도 변하지 않았을 수 있다.
또 다른 이유로는 데이터가 사용 패턴 변화를 반영하지 못하고 있을 수도 있다. 따릉이 공식 사이트에 남겨진 문의 글을 확인해보면 따릉이를 타고 싶어도 대여소에 자전거가 없어서 탈 수 없다는 내용의 문의가 꽤 많다. 따릉이를 대여하는 곳과 반납하는 곳이 일치할 필요가 없다보니 특정 대여소들에 쏠림 현상이 발생하는 것이다. 따라서, 따릉이를 타려고 해도 타지 못하는 경우가 발생하다보니 사용 패턴 변화가 대여 기록에 모두 반영되지 않았을 수도 있다. 그리고 현재 제공되는 데이터가 가지가 있지 않은 다른 feature들에서의 코로나19 이전과 이후에 차이가 발생했는데 해당 feature들에 대해서 분석을 하지 않아서 변화를 못 찾아낸 것일 수도 있다.
잘 읽었습니다. 너무 잘 정리해 주셨네요. 감사합니다!