pandas의 get_dummies() 함수는 범주형 변수를 더미(dummy) 변수로 변환해주는 기능을 제공한다.
범주형 변수는 여러 범주(카테고리)를 가지는 변수를 의미하며, 더미 변수는 이러한 범주형 변수를 0 또는 1의 값을 가지는 이진 변수로 변환한 것이다.
get_dummies() 함수를 사용할 때 drop_first라는 parameter를 True로 설정하면, 더미 변수의 첫 번째 열(첫 번째 범주)을 자동으로 삭제한다.
이렇게 하는 이유는 다중 공선성(multicollinearity)을 피하기 위함이다.
import pandas as pd
# 예제 데이터 프레임
df = pd.DataFrame({'Gender': ['Male', 'Female', 'Male', 'Female']})
# get_dummies() 함수를 사용하여 더미 변수 생성 (drop_first=True)
df_dummies = pd.get_dummies(df['Gender'], drop_first=True)
print(df_dummies)
이 코드에서 drop_first=True로 설정하여 첫 번째 범주인 'Male'에 해당하는 더미 변수를 삭제하면 결과적으로 'Male'이 1이면 'Female'은 자동으로 0이 되는 더미 변수가 생성된다.