[머신러닝] 빈도수 인코딩

ch.2·2024년 8월 27일
0

Python

목록 보기
4/4
post-thumbnail

CountFrequencyEncoder

범주형 변수를 인코딩할 때, 빈도수 많은 범주에 가중치를 두어 인코딩하는 방식
공식 Docs

  1. CountFrequencyEncoder()를 불러올 때
    전달인자에 encoding_method= 'count'를 집어넣어 변수의 범주별 개수를 학습하고 적용한다.
    범주가 데이터에서 나타나는 횟수를 기반으로 인코딩한다.

  2. CountFrequencyEncoder()를 불러올 때
    전달인자에 encoding_method= 'frequency'를 집어넣어 변수의 범주별 빈도를 학습하고 적용한다.
    범주가 전체에서 차지하는 비율을 기반으로 인코딩한다.

: 최종적으로 두 가지 인코딩을 적용하는 방식이다.

적용법

from feature_engine.encoding import CountFrequencyEncoder

# Count 인코딩
count_encoder= CountFrequencyEncoder(
    encoding_method= 'count',
    variables= 'column_name')

dataframe_name= count_encoder.fit_transform(dataframe_name)

# Frequency 인코딩
frequency_encoder= CountFrequencyEncoder(
    encoding_method= 'frequency',
    variables= 'column_name')

dataframe_name= frequency_encoder.fit_transform(dataframe_name)
profile
데이터 분석 공부중

0개의 댓글