TODO Target encoding(Mean encoding)

이윤석·2021년 7월 21일
0

ToDo...(아래 내용 읊조린 것들 정리 필요 + 노트 필기해논것 추가 필요)

summary

  • encoding 은 알고리즘을 돌릴 때, 범주형 데이터를 그대로 범주를 쓸 수 없기때문에 이것을 숫자로 변환해주는 과정.
    - 여기서의 숫자는 단지 단어의 여부만 나타낼 뿐, 숫자의 크기는 의미가 없음

  • Target encoding 은 범주형 데이터와 수치형 데이터의 관계를 범주형 데이터를 encoding 할 때 적용해서 보여주고 싶은 것

    • [더 간단히] Feature와 Target 간의 수치적 관계를 Categorical 에서 찾기 위함.
    • 범주를 나타내는 숫자가 나름대로의 의미가 있게 하려는 방법
      • 실제로 중복된 카테고리의 데이터와 중복되지 않은 카테고리의 데이터는 일단 encoding 방법으로 할 경우에, 중복되었다는 이유로 강력한 값을 의미하게 되는 경우가 더러 있음.. 하지만 target encoding 은 encoding 할 때 적용하는 카테고리와 수치데이터 간의 관계로 그 의미(가중치 느낌)의 차이가 생김 + smoothing 할 때, 식에 overall avg 와 in_category avg 를 얼마나 가중치를 둬서 encoding 을 할지 결정 가능 \therefore rare category, unknown category 문제 해결 가능
profile
Be Smart with 성실한 호기심

0개의 댓글

관련 채용 정보