One-hot-encoding

sooyeon·2022년 6월 23일
0

빅데이터분석기사

목록 보기
27/31

One-hot-encoding

vote (유권자 선거 행동) 데이터셋 불러오기 및 확인

import pandas as pd
data = pd.read_csv('vote.csv', encoding= 'utf-8')
data.head()

범주 변수와 기타 변수를 각각 X1과 XY로 나누기

X1 = data[['gender','region']]
XY = data.drop(X1, axis=1)

범주형 변수의 One-hot-encoding 변환

성별 gender 과 출신 지역 region 의 숫자를 문자로 변환

X1['gender'] = X1['gender'].replace([1,2], ['male','female'])
X1['region'] = X1['region'].replace([1,2,3,4,5], ['Sudo', 'Chungcheung', 'Honam', 'Youngnam', 'Others'])

변환된 범주형 데이터 X1 확인

X1.head()
genderregion
0maleYoungnam
1maleOthers
2maleHonam
3femaleSudo
4maleSudo

범주형 변수를 one-hot-encoding 으로 변환 및 확인

get_dummies

X1_dum = X1.get_dummies(X1)

자료 통합 및 저장

변환 데이터와 기타 변수를 한 데이터 셋으로 통합 및 확인

Fvote = pd.concat([X1_dum, XY], axis = 1)
Fvote.head()

gender_femalegender_maleregion_Chungcheungregion_Honamregion_Othersregion_Sudoregion_Youngnam
00100001
10100100
20101000
31000010
40100010

csv 파일로 저장 내보내기

Fvote.to_csv('Fvote.csv', sep=',', encoding='utf-8'), index=False)

0개의 댓글