word2vec

이우철·2025년 10월 19일

https://word2vec.kr/search/
여기서 테스트 해보자, 나름 재미있다!

Word2Vec 예시는 "왕 - 남자 + 여자 = 여왕"과 같이 단어의 의미적 관계를 벡터 연산으로 표현하는 것입니다. Word2Vec은 단어들을 벡터 공간에 배치하여 문맥상 비슷한 단어들은 가깝게, 관련 없는 단어들은 멀리 떨어뜨리며, 문맥을 학습하여 단어의 의미를 숫자로 표현하는 기술입니다.

주요 예시
의미적 유사성: "강아지"와 "고양이" 같은 비슷한 의미의 단어들은 벡터 공간에서 서로 가까운 위치에 놓입니다.
관계 학습: Word2Vec은 문장 속에서 단어들이 어떻게 함께 사용되는지를 학습합니다. 예를 들어, I love pizza라는 문장에서 'I', 'love', 'pizza'는 서로 관련이 있다고 학습합니다.
벡터 연산: Word2Vec은 단어 벡터를 이용한 연산을 통해 의미적 관계를 파악할 수 있습니다.

예시: vector(왕) - vector(남자) + vector(여자) = vector(여왕)
다른 예시: vector(한국) - vector(서울) + vector(파리) = vector(프랑스)

학습 원리

CBOW (Continuous Bag-of-Words): 주변 단어들을 이용하여 가운데 단어를 예측하는 방식입니다.

예를 들어
"The fat cat sat on the mat." 문장에서 'cat'이라는 단어를 예측하기 위해 주변 단어들('fat', 'sat')을 사용합니다.
Skip-gram: 가운데 단어를 이용하여 주변 단어들을 예측하는 방식입니다.
예시: 'love'라는 단어를 입력으로 받아 주변 단어인 'I'와 'pizza'를 예측하도록 학습합니다.

장점
단어의 의미를 벡터 공간에 밀집된 형태로 표현하여 희소 표현(Sparse representation)의 문제를 해결합니다.
단어의 의미와 문맥을 효과적으로 나타낼 수 있습니다.
Word2Vec 사용 예시
텍스트 데이터를 벡터화하여 다양한 자연어 처리 모델에 입력으로 사용합니다.
단어 간의 유사도나 관계를 측정하는 데 활용할 수 있습니다.
기계 번역, 감성 분석, 추천 시스템 등 다양한 분야에서 사용됩니다.

이거시 2012년 기술이라는 것이 더 재미난 점...

이우철

개발 정리 공간 - 업무일때도 있고, 공부일때도 있고...

이전 포스트

아기다리고기다리던 spec kit

다음 포스트

word2vec

학습 원리

아기다리고기다리던 spec kit

Chat SDK

0개의 댓글