코로나19 이전과 이후, 따릉이 사용패턴에는 어떤 변화가 생겼을까?

Gayeon Kim·2020년 10월 9일
1

프로젝트

목록 보기
1/3

1. 코로나19가 가져온 변화


서울시, 코로나19에도 안심…따릉이 이용 전년 대비 약67%↑

서울특별시 새소식, 2020-04-08, https://news.seoul.go.kr/traffic/archives/503031

2020년. 올해 1월 1일을 떠올려보면 고작 10의 자리의 숫자 하나가 바뀔 뿐인데 다른 때와는 다르게 더 설레고 들떴었다. 그런데 막상 맞닥뜨린 2020년의 모습은 상상과 많이 달랐다. 코로나19가 전세계를 휩쓸었고, 생활 방식 하나하나에 많은 변화를 가져왔다. 마스크 없이는 외출을 할 수 없게 되었고, 예전처럼 많은 사람이 한 자리에 모여 음식을 나눠먹으며 웃고 떠들 수 없어졌다.

코로나19를 피하기 위해서는 이른바 '3밀(밀폐·밀집·밀접)' 환경을 피해야 하기 때문에, 대중교통을 이용하기도 꺼려지고 실내 활동을 하는 것도 제약이 생겼다. 이 때문인지 최근 서울시가 발표한 바에 따르면 서울시 공공자전거 '따릉이'의 사용이 전년 대비 약 67% 증가했다고 한다. 그런데 이 소식을 듣고 한 가지 궁금증이 생겼다. 과연 코로나19 이전과 이후에 단순히 따릉이 사용량의 수치적 변화만 생겼을까? 직장인들은 재택근무를 하는 경우가 늘어났고, 학생들은 오프라인 등교를 매일 하지 않는다. 그렇다면 기존에는 출퇴근, 등하교 시간에 집중되었던 시간별 따릉이 사용률에 무언가 변화가 있지 않을까? 사용자의 연령대 분포도 전과 달라지지 않았을까?

그래서 서울 열린데이터광장에서 제공하는 '서울특별시 공공자전거 이용정보(시간대별)' 데이터를 통해 코로나19 이전과 이후에 따릉이 사용 패턴에 어떠한 변화가 생겼는지 살펴보기로 했다.



2. 사용 데이터 소개


  • 사용 데이터
  • 데이터셋 포함 기간
    • 코로나19 이전: 2017년, 2018년, 2019년의 1월 27일부터 6월 30일까지
    • 코로나19 이후: 2020년 1월 27일부터 6월 30일까지

따릉이의 사용 패턴은 날씨의 영향을 받기 때문에, 보다 정확한 분석을 위해서는 같은 기간끼리 비교를 해야 한다. 2020년의 데이터셋이 6월 30일까지 주어져 있기에 코로나19 이전인 2017년, 2018년, 2019년 역시 6월 30일까지만 분석에 사용하기로 했다. 그리고 코로나19가 정확히 2020년 1월 1일부터 국내에 영향을 줬던 게 아니기 때문에 기준점을 설정할 필요가 있었다. 따라서 국내의 감염병 위기경보가 '경계'단계로 격상되었던 1월 27일을 기준으로 삼았다.

데이터 원본 파일에는 아래와 같은 정보가 들어있다.

  • 대여일자: 대여한 날짜 (연, 월, 일)
  • 대여시간: 대여한 시간대
  • 대여소번호: 대여한 대여소의 고유번호
  • 대여소명: 대여한 대여소의 이름
  • 대여구분코드: 대여시 사용한 대여권 종류 (정기권, 일일권, 단체권, 일일권(비회원))
  • 성별: 사용자의 성별 (여성, 남성, NaN)
  • 연령대코드: 사용자의 연령대 (~ 10대, 20대, 30대, ... . 60대, 70대 ~)
  • 이동거리: 사용 시간 동안 따릉이를 사용하여 이동한 총 거리 함계 (단위: m)
  • 사용시간: 대여시점부터 반납시점까지의 시간 (단위: 분)



3. 데이터 전처리


분석을 시작하기에 앞서, 데이터 전처리를 진행하였다.

1) 결측치 처리

  • 대여소 목록에 없는 대여소 관련 기록: 삭제

먼저, 대여소 번호가 3번, 5번, 10번, '중랑정비팀test 1005'인 데이터들은 대여소명이 NaN이었다. 따릉이 공식 홈페이지를 통해 확인한 결과, 해당 번호들은 모두 대여소 목록에 없는 번호들이었으며 따릉이 대여와 관련된 곳인 것 같았다. 따라서 사용자들에 의해 생성된 데이터가 아니므로 대여소명이 NaN인 row들도 모두 제거하기로 하였다. 이와 함께, 대여소명이 '상암센터 정비실', '위트콤', '위트콤공장', '중랑센터'인 경우, 대여소 번호가 101보다 작은 경우 혹은 9000번 이상인 경우도 모두 대여소 목록에 없는 대여소에서 생성한 데이터이므로 이들도 함께 제거하였다.

  • 성별: 'None'으로 변경

성별의 경우 2017년부터 2019년의 데이터셋에서는 총 2,092,128개(전체의 24%)가, 2020년의 데이터셋에서는 총 4,157,934개(전체의 54%)가 NaN이었다. 해당하는 row를 제거하기에는 너무 수가 많아서 확인해봤더니 2018년 6월 이후부터 신규 가입 시 성별이 선택 기재사항으로 바뀌었다고 한다. 따라서 성별의 NaN들을 'None'으로 변경해주었다.

  • 이동 거리와 사용 시간이 모두 0인 데이터: 삭제

그리고 이동 거리와 사용 시간이 모두 0인 데이터도 제거하였다. 이동 거리와 사용 시간이 모두 0인 것은 따릉이를 대여했지만 사용을 하지 않고 바로 반납한 경우이거나, 아니면 거리 측정 장치나 시간 기록 장치에 문제가 생겨 제대로 기록되지 않은 경우일 것이다. 전자의 경우는 따릉이의 사용 패턴 분석에 적합하지 않은 데이터이므로 제거해야 한다. 그러나 주어진 정보만으로는 각 데이터가 전자에 해당하는지, 후자에 해당하는지를 구분할 수 없었다. 다행히 이동 거리와 사용 시간이 모두 0인 데이터는 전체 데이터의 약 0.1%도 되지 않기 때문에 분석 결과에 큰 영향을 주지 않을 것이므로 제거하기로 하였다.


2) 이상치 표시

데이터를 살펴보니 이상한 것들이 몇 가지 있었다. 예를 들어, 이동 거리를 사용 시간으로 나눠 보았을 때 속도가 200km/h를 넘는 데이터도 있었고 사용 시간은 0분인데 이동 거리는 몇 km나 되는 데이터도 있었다. 따라서 이상치를 처리할 필요가 있었다. 그러나 이러한 이상치는 코로나19 이전과 이후의 평균 이동 거리와 평균 사용 시간을 비교할 때는 문제가 되지만 연령대 분포 변화나 대여권 종류 분포 변화 등을 비교할 때에는 문제가 되지 않기 때문에 삭제하지 않고 별도로 표시를 한 column을 추가하기로 하였다. 추가한 항목은 아래와 같다.

  • 센서 이상

    • 1) 사용시간이 0분인데 이동거리가 561m 이상인 경우
    • 2) 이동거리가 0m인데 사용시간이 0분 초과인 경우
    • 일반 자전거의 평균 속력이 20.2km/h이므로 561m 이상 움직였음에도 사용시간이 0분인 것은 센서 이상으로 기록이 제대로 되지 않은 것일 가능성이 높다. 또한 사용시간이 0 이상이라는 건 최소 1분은 따릉이를 사용했다는 뜻이므로 정상적인 사용이었다면 이동거리가 0m보다는 클 것이다. 따라서 이동거리가 0m인데 사용시간이 0분을 초과한 경우도 센서 이상으로 기록이 제대로 되지 않았을 가능성이 높다.
  • 기록 이상

    • 이동거리 > 사용시간 * 833인 경우
    • 자전거 상급자의 권장 속도가 40~50km/h이므로 이보다 속도가 빠르다면 기록이 이상한 경우일 가능성이 높다.
  • 분실

    • 사용시간이 360분을 초과한 경우
    • 현재 규정상 일반권은 최대 4시간, 프리미엄권은 최대 6시간 내에 반납을 하지 않으면 분실 처리가 되어 도난 신고되나, 원본 데이터만으로는 각 기록이 일반권에 속하는지, 프리미엄권에 속하는지 알 수 없어서 사용시간이 6시간을 초과할 경우를 분실로 간주하기로 하였다.

전처리 결과 최종적으로 생성된 데이터 프레임의 column들은 아래와 같다.

사용한 데이터 프레임의 컬럼 목록

  • 대여일자: 대여한 날짜 (연, 월, 일)
  • 대여시간: 대여한 시간대 (24시간 기준)
  • 대여소번호: 대여한 대여소의 고유번호
  • 대여소명: 대여한 대여소의 이름
  • 대여구분코드: 대여시 사용한 대여권 종류 (정기권, 일일권, 단체권, 일일권(비회원))
  • 성별: 사용자의 성별 (여성, 남성, NaN)
  • 연령대코드: 사용자의 연령대 (~ 10대, 20대, 30대, ... . 60대, 70대 ~)
  • 이동거리: 사용 시간 동안 따릉이를 사용하여 이동한 총 거리 함계 (단위: m)
  • 사용시간: 대여시점부터 반납시점까지의 시간 (단위: 분)
  • 센서이상: 자전거의 센서 이상으로 거리나 시간이 기록되지 않은 경우
  • 기록이상: 거리 또는 시간 기록이 이상한 경우
  • 분실여부: 시간 내 반납을 하지 않아 분실처리된 자전거인 경우



4. 데이터 분석


코로나19 이전과 이후의 따릉이 사용 패턴의 차이를 알아보기 위해서, 다음과 같은 4가지 질문을 던져보았다.

  • 코로나19는 따릉이 사용량을 증가시켰나?
  • 평균 이동 거리와 평균 시간대는 어떻게 변했나?
  • 따릉이 사용자들의 특징은 어떻게 변했나?
  • 시간별 사용량의 그래프 모양은 어떻게 다른가?

1) 2020년의 따릉이 사용량 증가, 과연 코로나19 때문일까?

앞서 언급했듯이, 2020년의 따릉이 사용량은 2019년에 비해서 증가하였다. 그런데 과연 2020년의 사용량 증가의 이유가 코로나19 때문이라고 콕 찝어서 말할 수 있을까? 이를 알아보기 위해서 2017년부터 2020년까지 동일한 기간 동안의 따릉이 사용량을 비교해보았다.

전년 대비 증가율

  • 2018년: 약 97.9%
  • 2019년: 약 66.8%
  • 2020년: 약 72.1%

2020년의 따릉이 사용량은 2019년에 비해서 증가하긴 하였다. 그러나 그래프를 보면 알 수 있듯이, 따릉이의 사용량은 매년 증가하고 있었다. 전년 대비 증가율을 계산해봤을 때, 2020년의 전년 대비 증가율은 약 72.1%였다. 이 수치가 다른 연도의 증가율에 비해서 월등하게 큰 값이 아니었고, 심지어 가장 큰 값도 아니었다. 코로나19 이전과 이후의 증가율에 큰 변화가 없기 때문에 2020년 따릉이 사용량 증가의 원인이 코로나19라고 단정짓기는 어렵다.



2) 평균 이동 거리 및 사용 시간은 길어졌을까?


코로나19 때문에 따릉이의 사용자가 증가했다고 말하기 어렵더라도, 따릉이를 사용하는 사람들의 사용 패턴은 바뀔 수 있다. 코로나19로 인해 사람과의 접촉을 줄이기 위해서 지하철과 버스 대신 따릉이를 이용하는 사람이 많아지지 않았을까 하는 생각이 들었다. 그리고 만약 정말 따릉이가 대중교통을 대체하고 있다면 평균 이동 거리가 예전보다 길어지고 평균 사용 시간도 늘어날 것이라고 예상했다. 이러한 생각이 맞는지 확인하기 위해서 코로나19 이전과 이후의 평균 이동 거리와 평균 사용 시간을 비교해보았다. 이번 비교에서는 센서 이상, 기록 이상, 그리고 분실로 인한 정상적이지 않은 기록들을 제외하였다.


평균 이동 거리의 변화

평균 이동 거리

  • 코로나19 이전: 약 4,759m
  • 코로나19 이후: 약 5,444m

코로나19 이후의 평균 이동 거리는 약 5,444m로 코로나19 이전에 비해 약 14% 증가하였다. 코로나19 때문에 따릉이 사용 패턴이 변해서 평균 이동 거리도 길어질 것이라는 생각이 맞는 것 같아서 기뻤지만, 따릉이의 사용량 변화처럼 평균 이동 거리의 증가 원인이 코로나19라고 말하기는 어려울 수 있으므로 마음을 가라앉히고 연도별 평균 이동 거리 변화를 살펴보았다.


연도별 평균 이동 거리의 변화

전년 대비 증가율

  • 2018년: 약 2.76%
  • 2019년: 약 3.56%
  • 2020년: 약 12.04%

따릉이 사용의 평균 이동 거리 역시 조금씩 매년 증가하고 있었다. 그런데 2020년의 전년 대비 증가율은 약 12.4%로 다른 연도와 비교했을 때 월등한 차이가 있었다. 코로나19 이전과 이후의 증가율의 수치가 확연히 다르다는 점을 볼 때, 코로나19가 사용자들의 따릉이 소비 방식에 영향을 줬을 것이라고 추측할 수 있다.


평균 사용 시간의 변화

그럼 평균 사용 시간에는 어떠한 변화가 있는지 살펴보자.

평균 사용 시간

  • 코로나19 이전: 약 33분
  • 코로나19 이후: 약 41분

코로나19 이후 따릉이의 평균 사용 시간은 약 41분으로 코로나19 이전에 비해 약 24% 증가하였다. 이번에도 연도별 평균 사용 시간의 변화를 확인하였다.


연도별 평균 사용 시간의 변화

전년 대비 증감율

  • 2018년: 약 - 1.18%
  • 2019년: 약 + 0.89%
  • 2020년: 약 +24.59%

코로나19 이전과 이후의 차이는 비교적 분명하였다. 2020년의 전년 대비 증가율은 약 24.59%로 변동폭이 가장 컸다. 이 역시 코로나19 이전과 이후의 증가율의 수치가 확연히 다르다는 점으로 보아, 코로나19가 사용자들의 따릉이 소비 방식에 영향을 줬을 것이라고 추측할 수 있다.



3) 대여권의 분포와 연령대의 분포 변화


이 그림은 코로나19 이전의 따릉이 사용자들의 연령대와 대여권 종류에 대한 히트맵이다. 코로나19 이전에 따릉이 사용자 중 가장 많은 비율을 차지하고 있던 건 정기권 사용자이다. 특히 그 중에서도 20 ~ 40대의 사용량이 가장 많았다. 출퇴근 시간에 지하철 역이나 버스 정류장까지 이동 시 따릉이를 사용하는 사람이 많고, 이들은 따릉이를 매일 이용해야 하기 때문에 정기권을 주로 사용하므로 이러한 분포가 나타난 것으로 보인다. 하지만 코로나19 이후 재택 근무가 증가하였고, 학생들의 오프라인 등교일수는 감소하였다. 따라서 출퇴근과 등하교를 위해 따릉이를 사용하는 사람이 줄어들면서 코로나19 이후 따릉이 사용자 중에서 정기권을 사용하는 비율이 줄어들 것이라고 생각했다. 또한 운동을 하려는 사람, 실내 활동이 제한되어 실외 활동을 하려는 사람 등 새로운 그룹군의 사람들이 유입되면서 연령대 분포에도 변화가 생겼을 것이라고 생각했다.


위 그림은 코로나19 이전과 이후의 연령대와 대여권에 대한 히트맵을 나란히 그려본 것이다. 색깔이 칠해진 것을 보면 알 수 있듯이, 예상과 다르게 코로나19 이전과 이후의 사용자들의 전체적인 구성 비율에는 그렇게 큰 차이가 없었다.

cf) 코로나19 이전의 연령대와 대여권 종류에 대한 crosstab

연령대코드단체권일일권일일권(비회원)정기권
~10대689885675825162686
20대292861.08554e+06370822.7571e+06
30대1049138540190321.77019e+06
40대1177112875731771.14411e+06
50대1829446211323585813
60대1828760329149750
70대~147422885948864

cf) 코로나19 이후의 연령대와 대여권 종류에 대한 crosstab

연령대코드단체권일일권일일권(비회원)정기권
~10대132001768410233319
20대230671.01652e+06922.23355e+06
30대7607398565581.44195e+06
40대1762817684044997768
50대3191615334640577
60대278104821175740
70대~572557033754



대여권별 비율 변화

위 그림은 코로나19 이전과 이후 각각의 대여권이 전체에서 차지하는 비율에 대한 bar plot이다. 위의 히트맵에서도 알 수 있었듯이, 코로나19 이전과 이후의 대여권 비율 차이가 거의 없다.

각 대여권의 연도별 사용량에 대한 line plot을 그려보았다. 왼쪽은 수치 그대로 그림을 그린 것이고, 오른쪽은 전년 대비 증감율을 그린 것이다. 그래프를 통해서 정기권, 일일권, 단체권의 사용량 모두 2020년까지 증가해왔다는 것을 알 수 있다. 그런데 일일권(비회원)의 증감율은 2019년까지 음수, 즉 계속 감소하는 추세였으나 2020년에는 전년 대비 약 41%가 증가하였다는 점이 특이하다. 하지만 일일권(비회원)의 사용량이 증가하하더라도 다른 대여권과 비교했을 때에는 사용량이 너무 적어서 전체에서 각 대여권이 차지하는 비율을 변화시키지는 못했다.

그리고 2020년의 일일권의 전년 대비 증가율이 정기권의 전년 대비 증가율보다 컸는데, 출퇴근과 등하교를 하지 않는 사람이 늘어나면서 정기권에 대한 수요보다는 일일권에 대한 수요가 증가하지 않았을까 하고 추측하였으나, 사용자 각각의 따릉이 사용 목적에 대한 데이터는 없어서 확인 할 수 없었다.

cf) 각 대여권의 전년 대비 증감률에 대한 표

201820192020
단체권23.9163249.28762.8101
일일권77.975459.073109.598
일일권(비회원)-98.5307-81.447441.1348
정기권115.26967.893562.8492



연령대 분포의 변화


코로나19 이전과 이후 각각의 따릉이 사용자 연령대 분포에 대한 bar plot이다. 미세하게 조금씩 차이는 있어보이지만, 20대, 30대, 40대 순으로 사용자가 많다는 점은 변하지 않았다.


각 연령대의 연도별 사용량에 대한 line plot을 그려보았다. 왼쪽은 수치 그대로 그림을 그린 것이고, 오른쪽은 전년 대비 증가율을 그린 것이다. 그래프를 통해서 모든 연령대에서 따릉이 사용량이 증가해 왔다는 것을 알 수 있다. 2020년에 전년 대비 증가율이 가장 큰 연령대는 ~ 10대로 148%가 증가하였다. 증가율 변화 폭이 가장 큰 연령대는 70대 이상으로 2018년과 2019년의 전년 대비 증가율은 각각 약 23%, 약 7%였는데, 2020년에는 81%가 전년 대비 증가했다. 이렇게 각 연령대별로 증가율의 차이가 있었기 때문에 연령대 분포 bar plot에서 미세하게 20대의 비율이 조금 줄고 10대의 비율이 조금 증가하는 등의 작은 변화들이 생기게 된 것 같다.

cf) 각 연령대의 전년 대비 증감률에 대한 표

201820192020
~10대65.7685219.763148.21
20대90.74871.535958.1424
30대100.53751.700268.9115
40대106.77955.88480.6953
50대139.68478.371599.7663
60대117.0676.5531114.312
70대~23.26516.7365581.3051



대여권별 연령대 분포의 변화

재밌는 건 대여권별 연령대 분포 변화를 살펴봤을 때였다.

  • 정기권의 연령대별 분포

  • 일일권의 연령대별 분포

대여권 중 가장 많은 비율을 차지했던 정기권과 일일권의 연령대별 분포는 코로나19 이전과 이후에 큰 차이가 있지 않았다. 모두 20대가 가장 많았고, 그 다음으로는 30대가 많았다.


  • 단체권의 연령대별 분포

코로나19 이전과 달리 코로나19 이후에는 단체권에서 10대와 40대의 비율이 증가하였다. 위에서 단체권의 이용자 수가 증가하고 있는 추세라는 걸 확인했다. 따라서 새로운 인원의 유입 때문에 연령대 구성에 변화가 생겼다는 것을 기대해 볼 수 있다.

위 그림은 단체권의 사용 중 각 연령대의 연도별 사용량에 대한 line plot이다. 왼쪽은 수치 그대로 그림을 그린 것이고, 오른쪽은 전년 대비 증감율을 그린 것이다. 그래프를 보면 2020년에 전년 대비 증감률의 변화가 다양하다. 증가율이 증가한 연령대도 있는 반면, 감소한 연령대도 있다. 따라서 이러한 차이 때문에 단체권 사용자의 연령대 구성에 변화가 생겼다는 것을 확인할 수 있다.

cf) 단체권 사용량의 각 연령대의 연도별 전년 대비 증감률에 대한 표

201820192020
~10대3.21361966.484126.687
20대14.7705349.52211.5533
30대23.8648166.45421.6925
40대42.953978.508192.338
50대49.0446123.718204.776
60대649.0566251.899
70대~-37.1429-2572.7273

  • 일일권(비회원)의 연령대별 분포

일일권(비회원)의 연령대별 분포는 상당히 많이 변하였다.

역시 연도별 사용량 변화를 line plot으로 그려보았다. 왼쪽은 2017년부터 2020년까지의 그래프인데 2018년 이후의 값이 잘 보이지 않아서 2018년부터 2020년까지만 따로 그려보았다. 2020년에는 일일권(비회원) 30대와 40대의 수가 2019년에 비해서 미세하게 증가하였다. 2019년까지 계속 감소했던 일일권(비회원)의 사용량이 2020년에 증가한 것은 코로나19가 조금이라도 영향을 주지 않았을까 하고 생각했다.

다만, 2017년부터 2020년까지 20대의 일일권(비회원)의 사용이 매우 크게 감소하였다는 점을 고려했을 때, 코로나 이전과 이후의 일일권(삐회원)의 연령대 분포에서 30대와 40대의 비율이 높아진 것은 30대와 40대의 증가보다는 20대의 감소가 결정적인 원인이었을 것이다.

cf) 일일권(비회원) 사용량의 각 연도별 사용량

연령대코드~10대20대30대40대50대60대70대~
201781836479886531071288320849
201875011406530710
20190102275520
20200925844410



4) 사용 시간대의 변화


이번에는 따릉이 사용의 시간별 비율에 변화가 있을지 살펴보았다.

전체

위 그림은 평일과 주말 각각의 코로나19 이전과 이후 시간별 사용 비율에 대한 line plot이다. 서론에서 예상했던 것과 달리, 평일과 주말 모두 코로나19 이전과 이후에 큰 차이가 없다. 앞에서 코로나19 이전과 이후의 대여권 종류별 비율과 사용자의 연령대 분포가 크게 달라지지 않았고, 20대인 정기권 사용자가 코로나19 이전과 이후 모두 가장 많다는 것을 확인하였다. 코로나19 이전과 이후 따릉이 사용자의 특징이 크게 바뀌지 않아서 사용 패턴에도 변화가 없는 것 같다.

대여권별 차이

이번에는 대여권의 종류별로 시간별 사용 비율을 살펴보았다. 코로나19 이전과 이후의 전체 사용자들의 사용 패턴에 변화가 없는 이유가 따릉이 사용자의 특징이 크게 바뀌지 않았기 때문이 맞다면, 연령대 분포에 변화가 거의 없었던 정기권과 일일권은 시간별 사용 패턴에도 변화가 없을 것이고 연령대 분포에 차이가 발생한 단체권과 일일권(비회원)은 시간별 사용 패턴에 차이가 발생했을 것이다.

정기권과 일일권

  • 정기권

  • 일일권

코로나19 이전과 이후의 연령대 분포에 변화가 없었던 정기권과 일일권은 시간별 사용 비율의 변화도 거의 없다.


단체권과 일일권(비회원)

  • 단체권

  • 일일권(비회원)

코로나19 이전과 이후에 사용자를 구성하는 연령대 분포 변화가 있었던 단체권과 일일권(비회원)도 시간대별 사용 비율의 그래프 모양 차이가 크게 존재하지 않았다. 다만, 평일은 그래프 최고점의 시간대가 코로나19 전보다 조금 앞당겨졌다. 연령대의 변화는 따릉이 사용 패턴에 크게 영향을 미치지 않는 듯하다.



5. 분석 결과 정리


  1. 따릉이 사용량이 전년도 대비 증가한 건 사실이지만 코로나19 때문이라고 하기는 어렵다.
  2. 따릉이 사용의 평균 이동 거리, 사용 시간은 증가한 것에서 정말로 따릉이가 대중교통의 대체 수단으로 사용되었을 가능성을 보았다.
  3. 그러나, 사용자들의 특징(대여권 종류, 연령대 분포)는 크게 바뀌지 않았다.
  4. 시간별 사용량의 특징에도 변화가 없었다.

지금까지 코로나19 이전과 이후의 따릉이 사용 패턴을 비교해봤다. 물론 평균 이동 거리와 평균 사용시간이라는 달라진 점이 존재하기는 하나, 총 사용량이나 사용자들의 특징, 시간별 사용량에서는 큰 차이가 없었다. 즉, 코로나19는 따릉이 사용 패턴에 생각만큼 큰 영향을 미치지 않았다. 그렇다면 왜 예상과 달리 코로나19 이전과 이후에 따릉이 사용패턴이 크게 달라지지 않았을까?

먼저, 정말 코로나19가 따릉이 사용 패턴에 영향을 미치지 않았을 수 있다. 예를 들어, 재택 근무를 하거나 온라인 등교를 한다고 해도 물리적인 공간 이동을 하지 않아도 될 뿐이지 해당 시간대를 자유롭게 쓸 수 있는 건 아니다. 또한 따릉이로 출퇴근을 하는 이용자가 많아지더라도 따릉이로 이동할 수 있는 거리에는 한계가 있으므로 대중 교통으로 편도 2시간 씩 출퇴근을 하던 사람이 갑자기 따릉이를 사용해서 출퇴근을 하지도 않을 것이다. 따라서 사람들의 생활 패턴이 바뀌지 않아서 따릉이의 사용 패턴도 변하지 않았을 수 있다.

또 다른 이유로는 데이터가 사용 패턴 변화를 반영하지 못하고 있을 수도 있다. 따릉이 공식 사이트에 남겨진 문의 글을 확인해보면 따릉이를 타고 싶어도 대여소에 자전거가 없어서 탈 수 없다는 내용의 문의가 꽤 많다. 따릉이를 대여하는 곳과 반납하는 곳이 일치할 필요가 없다보니 특정 대여소들에 쏠림 현상이 발생하는 것이다. 따라서, 따릉이를 타려고 해도 타지 못하는 경우가 발생하다보니 사용 패턴 변화가 대여 기록에 모두 반영되지 않았을 수도 있다. 그리고 현재 제공되는 데이터가 가지가 있지 않은 다른 feature들에서의 코로나19 이전과 이후에 차이가 발생했는데 해당 feature들에 대해서 분석을 하지 않아서 변화를 못 찾아낸 것일 수도 있다.



참고

2개의 댓글

comment-user-thumbnail
2020년 10월 12일

잘 읽었습니다. 너무 잘 정리해 주셨네요. 감사합니다!

답글 달기
comment-user-thumbnail
2021년 7월 15일

안녕하세요!
저희가 년도별 따릉이 데이터를 통한 빅데이터 분석을 진행중인데
2020년 데이터 파일이 누락된것이 절반을 넘어서 혹시 2020년 데이터어디서 얻으셨는지 답변 해주시면 감사하겠습니다!

답글 달기