word2vec

이우철·2025년 10월 19일

https://word2vec.kr/search/
여기서 테스트 해보자, 나름 재미있다!

Word2Vec 예시는 "왕 - 남자 + 여자 = 여왕"과 같이 단어의 의미적 관계를 벡터 연산으로 표현하는 것입니다. Word2Vec은 단어들을 벡터 공간에 배치하여 문맥상 비슷한 단어들은 가깝게, 관련 없는 단어들은 멀리 떨어뜨리며, 문맥을 학습하여 단어의 의미를 숫자로 표현하는 기술입니다.

  • 주요 예시
    의미적 유사성: "강아지"와 "고양이" 같은 비슷한 의미의 단어들은 벡터 공간에서 서로 가까운 위치에 놓입니다.

  • 관계 학습: Word2Vec은 문장 속에서 단어들이 어떻게 함께 사용되는지를 학습합니다. 예를 들어, I love pizza라는 문장에서 'I', 'love', 'pizza'는 서로 관련이 있다고 학습합니다.

  • 벡터 연산: Word2Vec은 단어 벡터를 이용한 연산을 통해 의미적 관계를 파악할 수 있습니다.

  • 예시: vector(왕) - vector(남자) + vector(여자) = vector(여왕)
    다른 예시: vector(한국) - vector(서울) + vector(파리) = vector(프랑스)

학습 원리

CBOW (Continuous Bag-of-Words): 주변 단어들을 이용하여 가운데 단어를 예측하는 방식입니다.

예를 들어
"The fat cat sat on the mat." 문장에서 'cat'이라는 단어를 예측하기 위해 주변 단어들('fat', 'sat')을 사용합니다.
Skip-gram: 가운데 단어를 이용하여 주변 단어들을 예측하는 방식입니다.
예시: 'love'라는 단어를 입력으로 받아 주변 단어인 'I'와 'pizza'를 예측하도록 학습합니다.

  • 장점
    단어의 의미를 벡터 공간에 밀집된 형태로 표현하여 희소 표현(Sparse representation)의 문제를 해결합니다.
    단어의 의미와 문맥을 효과적으로 나타낼 수 있습니다.

  • Word2Vec 사용 예시
    텍스트 데이터를 벡터화하여 다양한 자연어 처리 모델에 입력으로 사용합니다.
    단어 간의 유사도나 관계를 측정하는 데 활용할 수 있습니다.
    기계 번역, 감성 분석, 추천 시스템 등 다양한 분야에서 사용됩니다.

이거시 2012년 기술이라는 것이 더 재미난 점...

profile
개발 정리 공간 - 업무일때도 있고, 공부일때도 있고...

0개의 댓글