[TIL#6] 기초 분석 팀 과제

강민지·2025년 2월 24일

데이터분석_TIL

목록 보기
6/81

하루종일 팀 과제로 고민하다가 시간이 다 가버렸다.
12시간이 원래 이렇게 짧은 것이었나..?

1. 주제 선정


우리 팀은 논의 끝에 "[공공데이터] 시카고 공유 자전거 이용 데이터"로 선택했다!
(정근님이 논리정연하게 말씀해주셔서 다들 설득당함..ㅋㅋ)

2. 이 데이터를 어떻게 다룰 것인가...

2-1. 데이터 다운받는 것부터가 난관인 우리 팀

하필이면 우리가 선택한 데이터의 파일 크기가 굉장히 컸다.
연도-월 별로 파일도 많고, 각각이 많게는 70만 행부터 그나마 적은 게 14만 행....
csv파일을 다운 받아서 DBeaver에 연결시키는 것부터가 난관이었다.

그래도 현유님이 튜터님께 여쭤봐주신 덕분에 잘 해결했다!

  • 인코딩 -> utf-8로 바꾸고
  • Trim whitespaces에 체크하고
  • configure에서 모든 data type을 TEXT(또는 LONGTEXT)로 바꾸어주기

2-2. 데이터를 어찌 분석해야 하죠..?

일단 데이터를 보긴 봤는데,, 어디부터 어떻게 손을 대야할 지 막막했다.
좌표 데이터도 있었는데, 파이썬이라면 이걸 맵을 그려서라도 어떻게 써보겠다만 SQL을 이용해서 하려고 하니 막막했다.

그래도 나름 분석해볼만한 인사이트들을 정리하자면...

  • 출퇴근 시간별 이용자 수 : 시카고는 7~9시/16~18시가 출퇴근 시간인 Rush Hour라고 함
  • 역을 기준으로 시간대별 출발/도착 지점 이용자 밀집도
  • 이용시간(도착시간-출발시간) : 0분 이용도 꽤 많았고, 10분 이내와 20분 이내 이용이 가장 많았음

2-3. 빈칸 처리가 너무 어렵다.

출발or도착한 역 위치가 적힌 컬럼 두개가 있었는데

  • start_station_name
  • end_station_name
    이 컬럼이 빈칸인 행도 굉장히 많았다.
    역에서 출발/도착한 것이 아니라 그냥 길가나 대학 캠퍼스 내 등의 다른 장소에서 이용을 한 경우이다.
    이런 데이터가 상당 수라 무작정 제거할 수도 없고 어떻게 활용해서 인사이트를 내야할 지 막막했다. (사실 여전히 막막한 상태...)

일단 오늘은 머리를 비우고.. 내일 리프레쉬 된 쌩쌩한 뇌로 다시 고민해봐야겠다.
우리팀 발표 잘 할 수 있겠지...? 화이팅....!!

0개의 댓글