원-핫-인코딩은 범주형 데이터를 처리하는 기법 중 하나로, 컴퓨터가 이해하기 쉽도록 자연어 처리를 위한 하나의 기법입니다. 단어들의 크기를 벡터의 차원으로하고 표현하고 싶은 단어의 인덱스에 1을 부여하고, 다른 인덱스에 0을 부여하여 단어를 벡터로 표현하는 방식입니다.
❓ 범주형 데이터
데이터가 컴퓨터, 마우스, 키보드, 모니터, 책상 다섯 가지의 카테고리가 있는데 그 중 하나를 가진다고 가정할 때 이 경우 다섯 개의 범주(category)를 가지는 범주형 데이터라고 할수 있습니다.
(1) 각 단어에 고유한 인덱스를 부여한다. (정수 인코딩)
(2) 표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여한다.
범주형 데이터 처리
: 기계 학습 모델은 숫자로 표현된 데이터를 입력으로 받아 처리합니다. 하지만 범주형 데이터는 그 자체로는 숫자가 아니며, 원-핫-인코딩을 통해 숫자로 변환하여 모델에 입력할 수 있습니다.
범주 간 독립성
: 원-핫-인코딩은 각 범주를 독립적으로 나타내기 때문에 범주 간의 상관관계가 없어집니다. 이로써 모델이 불필요한 상관관계를 학습하는 것을 방지하고 예측의 정확성을 높일 수 있습니다.
분류 모델의 입력
: 주로 분류 모델에서 원-핫-인코딩은 입력 데이터의 특징을 나타내는 역할을 합니다. 각 범주를 고유한 특성으로 간주하여 모델이 판단에 활용할 수 있도록 돕습니다.
손실 함수 계산
: 범주형 데이터를 다룰 때 모델의 손실 함수를 계산할 때 원-핫-인코딩된 값과 실제 값을 비교해 오차를 계산할 수 있습니다.
원-핫-인코딩은 인공지능에서 범주형 데이터 처리에 유용한 방법 중 하나로, 데이터에 연속성이 없다는 것을 컴퓨터에게 알려주기 위한 과정이며 간단하면서도 효과적입니다. 이를 통해 모델이 다양한 유형의 데이터를 처리하며 정확한 예측을 수행할 수 있습니다.