encoding 은 알고리즘을 돌릴 때, 범주형 데이터를 그대로 범주를 쓸 수 없기때문에 이것을 숫자로 변환해주는 과정.
- 여기서의 숫자는 단지 단어의 여부만 나타낼 뿐, 숫자의 크기는 의미가 없음
Target encoding 은 범주형 데이터와 수치형 데이터의 관계를 범주형 데이터를 encoding 할 때 적용해서 보여주고 싶은 것
[더 간단히] Feature와 Target 간의 수치적 관계를 Categorical 에서 찾기 위함.
범주를 나타내는 숫자가 나름대로의 의미가 있게 하려는 방법
실제로 중복된 카테고리의 데이터와 중복되지 않은 카테고리의 데이터는 일단 encoding 방법으로 할 경우에, 중복되었다는 이유로 강력한 값을 의미하게 되는 경우가 더러 있음.. 하지만 target encoding 은 encoding 할 때 적용하는 카테고리와 수치데이터 간의 관계로 그 의미(가중치 느낌)의 차이가 생김 + smoothing 할 때, 식에 overall avg 와 in_category avg 를 얼마나 가중치를 둬서 encoding 을 할지 결정 가능 ∴ rare category, unknown category 문제 해결 가능