[미니 프로젝트2] 결측치 처리 및 참조키 컬럼 추가

young·2022년 8월 28일
5

분석 프로젝트

목록 보기
1/1
post-thumbnail

팀프로젝트로 진행하는 분석에서 데이터 전처리 과정을 진행했다.
공간 데이터 처리를 위해 지역구를 추가하였고 지역 코드를 참조키로 추가하는 작업을 진행했다.


무더위 쉼터 데이터 전처리

import pandas as pd

#무더위 쉼터 데이터 임포트 및 생성
df=pd.read_excel('쉼터-결측치2.xlsx') 
df

지역구, 지역코드 데이터 생성

#지역구, 지역코드 데이터 프레임 생성
df_code = pd.DataFrame([['강남구', '11680'], ['강동구', '11740'], ['강북구', '11305'], ['강서구', '11500'], ['관악구', '11620'], ['광진구', '11215'], ['구로구', '11530'], ['금천구', '11545'], ['노원구', '11350'], ['도봉구', '11320'], ['동대문구', '11230'], ['동작구', '11590'], ['마포구', '11440'], ['서대문구', '11410'], ['서초구', '11650'], ['성동구', '11200'], ['성북구', '11290'], ['송파구', '11710'], ['양천구', '11470'], ['영등포구', '11560'], ['용산구', '11170'], ['은평구', '11380'], ['종로구', '11110'], ['중구', '11140'], ['중랑구', '11260']], columns = ['지역구', '코드']) 
df_code

지역구, 지역구 코드 컬럼 생성 및 데이터 merge

조건에 맞는 열을 원데이터에 추가하기 위해 merge 함수를 이용하였다.

#도로명 주소에서 지역구 문자열을 추출하여 컬럼 생성
df['지역구']=df['도로명주소'].str.split(' ', expand=True)[1]

#지역구, 지역코드 데이터와 무더위쉼터 데이터 합치기
df2 = pd.merge(df, df_code, how='outer', on='지역구')
df2

기타 전처리 및 엑셀로 데이터 저장

#Unnamed column 제거
df2=df2.drop(['Unnamed: 0'],axis=1)
df2

#엑셀로 데이터 프레임 만들기
df2.to_excel('쉼터데이터.xlsx')

사회복지시설 데이터 전처리

무더위쉼터 데이터 전처리와 동일한 과정으로 전처리를 진행하였다.

사회복지시설 데이터 임포트

#사회복지시설 데이터 임포트

df3= pd.read_excel('1.사회복지시설.xlsx')
df3

merge를 위한 컬럼명 변경

#지역구 코드로 컬럼명 변경
df3=df3.rename(columns={'시군구명':'지역구'})
df3

지역구 코드 데이터와 병합

#사회복지시설 데이터에 지역구 코드 추가
df4 = pd.merge(df3, df_code, how='outer', on='지역구')
df4

기타 전처리 및 엑셀로 데이터 저장

#첫번째 행 삭제
df4= df4.drop([df4.index[0]])
df4

#엑셀로 데이터 저장
df4.to_excel('사회복지시설.xlsx')
profile
한 걸음씩 쌓아가는 데이터 분석

2개의 댓글

comment-user-thumbnail
2022년 8월 28일

짤 너무 귀여워요!! 미니프로젝트 화이팅입니다 🙌🙌

1개의 답글