파이썬 개발일지_02-1주

써니·2021년 12월 17일
0
post-thumbnail

오,, 자꾸 미천한 코딩 실력으로 데이터 시각화를 해야 할 것 같아서 걱정했는데, 대용량 데이터 가공하는 걸 배우는 건 좋은 것 같다!!

전국 상가 업종 파일에서 서울시 내 구별 치킨집 수 데이터 구하기

  1. 시작할 때에는 데이터를 불러오게 해주는 pandas부터 불러와준다.
import pandas as pd
  1. pandas를 데러오고나면 이를 이용해 경로를 알려주고 원하는 파일을 불러온다.
commercial = pd.read_csv('./data/commercial.csv')
  1. 중간중간 commercial.tail(5) 등을 사용하여 내가 가공한 데이터의 서머리를 본다.
  1. 헤더만 뽑아 보고 싶은 경우 list 함수 사용
list(commercial)
  1. 특정 항목으로 groupby를 하고 싶을 때, 그 데이터로 묶는 것이 맞는지 중복을 제거하고 유니크 값만 남겨 보고 싶다면, 1강에서 배웠던 set을 이용해 중복을 제거하고 남는 값을 살펴본다.
category_range = set(commercial['상권업종소분류명'])
category_range, len(category_range)
  1. 서울시 내 지역별 치킨집 수를 알아보는 것이 목적이니, 상가별 주소를 확인하고 지역 단위를 어떻게 나눌지 계획한다. 도로명 컬럼의 항목을 살펴보자.
commercial['도로명']
  1. 오 ~ 도로명 주소를 space를 기준으로 스트링을 잘라 주어야겠다는 판단이 선다! 근데 어떻게 자르지? (1개 컬럼에 있는 스트링을 자를 때)
commercial[['시', '구', '상세주소']] = commercial['도로명'].str.split(' ', n=2, expand = True)

이것은... 띄어쓰기를 기준으로 n=2는 뭐였지.. 여튼 잘라주고 expand는 뭘 늘려주는거지? 여튼 시, 구, 상세주소라는 컬럼을 만들어 값들을 넣어주는 함수다.
이 마법을 사용하니 시 밑에 서울시 / 구 밑에 강남구 / 상세주소 밑에 나머지 도로명 주소 (선릉로93길) 이 들어가 새로운 컬럼이 생겼다!

  1. (3)으로 돌아가 내가 맨든 컬럼 어찌 생겼나 구경간다.
commercial.tail(5)
  1. 그래프를 그릴 서울 데이터만 남기고 나머지를 날린다.
seoul_data = commercial[commercial['시'] == '서울특별시']
seoul_data.tail(5)
  1. 서울만 남겼는지 한번 검증한다. 검증만이 살길
city_type = set(seoul_data['시'])
city_type, len(city_type)
  1. 나는 치킨집 수를 셀 것이니까, 업종이 치킨 업종만 남도록 나머지를 날린다. (9번과 동일 프로세스)
seoul_chicken_data.tail(5)
  1. 진짜 치킨 집만 남았는지 다시 검증
set(seoul_chicken_data['상권업종소분류명'])
  1. 이제 지역별, 치킨집 데이터만 남겼으니 대망의 구 단위별 치킨집 count를 뽑아보자.
groupdata = seoul_chicken_data.groupby('구')
group_by_category = groupdata['상권업종소분류명']
chicken_count_gu = group_by_category.count()
sorted_chicken_count_gu = chicken_count_gu.sort_values(ascending=False)
sorted_chicken_count_gu

결과:

다음 강의는, 이렇게 잘라낸 데이터를 시각화하는 것이다! 고고!

덧.
sort_values(ascending=false)
false 를 소문자로 쓰면 안된다.. (헐ㅋ)
profile
써니.와우

0개의 댓글

관련 채용 정보