팀프로젝트로 진행하는 분석에서 데이터 전처리 과정을 진행했다.
공간 데이터 처리를 위해 지역구를 추가하였고 지역 코드를 참조키로 추가하는 작업을 진행했다.
import pandas as pd
#무더위 쉼터 데이터 임포트 및 생성
df=pd.read_excel('쉼터-결측치2.xlsx')
df
#지역구, 지역코드 데이터 프레임 생성
df_code = pd.DataFrame([['강남구', '11680'], ['강동구', '11740'], ['강북구', '11305'], ['강서구', '11500'], ['관악구', '11620'], ['광진구', '11215'], ['구로구', '11530'], ['금천구', '11545'], ['노원구', '11350'], ['도봉구', '11320'], ['동대문구', '11230'], ['동작구', '11590'], ['마포구', '11440'], ['서대문구', '11410'], ['서초구', '11650'], ['성동구', '11200'], ['성북구', '11290'], ['송파구', '11710'], ['양천구', '11470'], ['영등포구', '11560'], ['용산구', '11170'], ['은평구', '11380'], ['종로구', '11110'], ['중구', '11140'], ['중랑구', '11260']], columns = ['지역구', '코드'])
df_code
조건에 맞는 열을 원데이터에 추가하기 위해 merge 함수를 이용하였다.
#도로명 주소에서 지역구 문자열을 추출하여 컬럼 생성
df['지역구']=df['도로명주소'].str.split(' ', expand=True)[1]
#지역구, 지역코드 데이터와 무더위쉼터 데이터 합치기
df2 = pd.merge(df, df_code, how='outer', on='지역구')
df2
#Unnamed column 제거
df2=df2.drop(['Unnamed: 0'],axis=1)
df2
#엑셀로 데이터 프레임 만들기
df2.to_excel('쉼터데이터.xlsx')
무더위쉼터 데이터 전처리와 동일한 과정으로 전처리를 진행하였다.
#사회복지시설 데이터 임포트
df3= pd.read_excel('1.사회복지시설.xlsx')
df3
#지역구 코드로 컬럼명 변경
df3=df3.rename(columns={'시군구명':'지역구'})
df3
#사회복지시설 데이터에 지역구 코드 추가
df4 = pd.merge(df3, df_code, how='outer', on='지역구')
df4
#첫번째 행 삭제
df4= df4.drop([df4.index[0]])
df4
#엑셀로 데이터 저장
df4.to_excel('사회복지시설.xlsx')
짤 너무 귀여워요!! 미니프로젝트 화이팅입니다 🙌🙌