범주형 변수를 인코딩할 때, 빈도수 많은 범주에 가중치를 두어 인코딩하는 방식
공식 Docs
CountFrequencyEncoder()를 불러올 때
전달인자에 encoding_method= 'count'를 집어넣어 변수의 범주별 개수를 학습하고 적용한다.
범주가 데이터에서 나타나는 횟수를 기반으로 인코딩한다.
CountFrequencyEncoder()를 불러올 때
전달인자에 encoding_method= 'frequency'를 집어넣어 변수의 범주별 빈도를 학습하고 적용한다.
범주가 전체에서 차지하는 비율을 기반으로 인코딩한다.
: 최종적으로 두 가지 인코딩을 적용하는 방식이다.
from feature_engine.encoding import CountFrequencyEncoder
# Count 인코딩
count_encoder= CountFrequencyEncoder(
encoding_method= 'count',
variables= 'column_name')
dataframe_name= count_encoder.fit_transform(dataframe_name)
# Frequency 인코딩
frequency_encoder= CountFrequencyEncoder(
encoding_method= 'frequency',
variables= 'column_name')
dataframe_name= frequency_encoder.fit_transform(dataframe_name)