import pandas as pd
data = pd.read_csv('vote.csv', encoding= 'utf-8')
data.head()
X1 = data[['gender','region']]
XY = data.drop(X1, axis=1)
성별 gender 과 출신 지역 region 의 숫자를 문자로 변환
X1['gender'] = X1['gender'].replace([1,2], ['male','female'])
X1['region'] = X1['region'].replace([1,2,3,4,5], ['Sudo', 'Chungcheung', 'Honam', 'Youngnam', 'Others'])
변환된 범주형 데이터 X1 확인
X1.head()
gender | region | |
---|---|---|
0 | male | Youngnam |
1 | male | Others |
2 | male | Honam |
3 | female | Sudo |
4 | male | Sudo |
범주형 변수를 one-hot-encoding 으로 변환 및 확인
get_dummies
X1_dum = X1.get_dummies(X1)
변환 데이터와 기타 변수를 한 데이터 셋으로 통합 및 확인
Fvote = pd.concat([X1_dum, XY], axis = 1)
Fvote.head()
gender_female | gender_male | region_Chungcheung | region_Honam | region_Others | region_Sudo | region_Youngnam | |
---|---|---|---|---|---|---|---|
0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 |
1 | 0 | 1 | 0 | 0 | 1 | 0 | 0 |
2 | 0 | 1 | 0 | 1 | 0 | 0 | 0 |
3 | 1 | 0 | 0 | 0 | 0 | 1 | 0 |
4 | 0 | 1 | 0 | 0 | 0 | 1 | 0 |
csv 파일로 저장 내보내기
Fvote.to_csv('Fvote.csv', sep=',', encoding='utf-8'), index=False)