[텍스트 임베딩] one-hot encoding의 한계점과 word2vec

이재현·2024년 7월 3일

텍스트 임베딩은 단어를 벡터로 변환하여 기계 학습 모델이 이해할 수 있도록 하는 중요한 과정입니다.

이 과정에서 사용되는 원-핫 인코딩(one-hot encoding)의 한계점과 word2vec의 장점은?

One-Hot Encoding의 한계점

차원의 저주 (Curse of Dimensionality)

One-hot encoding에서는 단어의 개수만큼 차원이 생깁니다. 예를 들어, 10,000개의 단어가 있는 어휘 집합이 있다면, 각 단어는 10,000차원 벡터로 표현됩니다. 이는 매우 고차원으로, 데이터의 희소성(sparsity) 문제를 야기합니다.

의미 정보 부족

One-hot encoding에서는 단어 간의 의미적 유사성을 반영하지 않습니다. 예를 들어, '고양이'와 '강아지'는 의미적으로 유사하지만, one-hot 벡터에서는 완전히 독립적이고 아무런 연관성이 없는 벡터로 표현됩니다.

메모리 비효율성

고차원 벡터는 많은 메모리를 차지합니다. 대부분의 원소가 0이기 때문에, 실제로는 비효율적입니다.

확장성 문제

새로운 단어가 추가될 때마다 벡터의 차원이 늘어나야 하므로, 실시간 또는 동적인 어휘 집합에 대해 적용하기 어렵습니다.

Word2Vec의 장점

저차원 임베딩

Word2Vec은 단어를 고정된 크기의 저차원 밀집 벡터(dense vector)로 변환합니다. 일반적으로 100-300차원의 벡터를 사용하므로, 차원의 저주 문제를 극복할 수 있습니다.

의미적 유사성 반영

Word2Vec은 단어의 의미적 유사성을 반영합니다. 예를 들어, '고양이'와 '강아지'는 Word2Vec 벡터 공간에서 가까운 위치에 있게 됩니다. 이는 Word2Vec이 단어의 주변 맥락(context)을 학습하여 유사한 맥락에서 사용되는 단어들이 유사한 벡터를 갖도록 하기 때문입니다.

메모리 효율성

저차원 밀집 벡터로 표현되기 때문에 메모리를 효율적으로 사용할 수 있습니다. 이는 특히 대규모 텍스트 데이터셋을 다룰 때 큰 장점입니다.

확장성

Word2Vec 모델은 새로운 단어가 추가되더라도 기존 모델을 유지하면서 새로운 단어에 대해 벡터를 학습할 수 있습니다. 또한, 사전 학습된 Word2Vec 모델을 다양한 자연어 처리 작업에 전이 학습(transfer learning) 형태로 사용할 수 있습니다.

다양한 활용 가능성
Word2Vec 벡터는 단어 유사도 계산, 군집화, 차원 축소 및 다양한 자연어 처리 작업에 유용하게 사용될 수 있습니다.

이러한 이유들로 인해, Word2Vec은 많은 자연어 처리(NLP) 작업에서 원-핫 인코딩을 대체하여 사용되고 있습니다. Word2Vec은 단어 간의 의미적 관계를 보다 잘 반영하여, 자연어 이해와 처리 성능을 크게 향상시킬 수 있습니다.

이재현

데이터사이언티스트

이전 포스트