분류 | 0 | 1 | 2 |
---|---|---|---|
강아지 | 1 | 0 | 0 |
고양이 | 0 | 1 | 0 |
냉장고 | 0 | 0 | 1 |
{Banana:1, Tomato:2, Apple:3, ... Watermelon:10}
* 이 정수 인코딩은 Banana가 Watermelon보다는 Tomato에 더 가깝다는 의미를 담고 있지만, 이는 사용자가 부여하고자 했던 정보가 아님.
* 이러한 정수 인코딩의 순서 정보가 도움이 되는 분류문제는 존재하지만, 각 클래스는 순서의 의미를 갖고 있지 않으므로
**각 클래스 간의 오차는 균등한 것이 옳음**
원-핫 인코딩 예시
세 개의 카테고리에 대해서는 원-핫 인코딩을 통해서 레이블을 인코딩했을때 각 클래스 간의 제곱 오차가 균등함을 볼 수 있음.
다르게 표현하면 모들 클래스에 대해서 원-핫 인코딩을 통해 얻은 원-핫 벡터들은 모든 쌍에 대해서 유클리드 거리를 구해도 전부 동일함.
각 클래스 표현방법이 무작위성을 가진다는 점을 표현할 수 있음.
이는 오히려 단어의 유사성을 구할 수 없다는 단점으로 언급됨.