# BOW

11개의 포스트
post-thumbnail

[NLP] DTM과 TF-IDF

본 포스트에서는 카운트 기반 단어 표현법인 BoW와 DTM에 대하여 알아보고, 이를 통해 구할 수 있는 가중치인 TF-IDF애 대해 알아본다.

2023년 7월 17일
·
1개의 댓글
·
post-thumbnail

[NLP] 자연어처리 임베딩

단어 빈도를 이용하는 방법단어 사전을 미리 구축 → 무작위로 corpus 내에 단어를 꺼내서 라벨을 부여문장 속 단어 빈도를 표시한다장점쉽고 직관적이다 문장을 숫자로 변환단어 빈도를 기반으로 문서 유사도를 파악 할 수 있다.단점단어의 빈도만 고려할 뿐 순서 고려 x세상

2022년 12월 19일
·
0개의 댓글
·
post-thumbnail

파이썬 머신러닝 완벽 가이드 - 9. Text Analytics(1) (Encoding, Vectorize)

TA(Text Analytics or Text Mining)비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 발전머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행한다.텍

2022년 10월 26일
·
0개의 댓글
·
post-thumbnail

[DL] NLP를 위한 준비

BoW, DTM, TF-IDF, 단어 전처리

2022년 3월 12일
·
0개의 댓글
·

텍스트 벡터화

Word2Vec의 대중화 이전에, 텍스트의 분포를 활용하여 텍스트를 벡터화하는 아이디어를 들여다보자. 단어 빈도를 이용한 벡터화(1) Bag of Words(2) Bag of Words 구현해보기(3) DTM과 코사인 유사도(4) DTM의 구현과 한계점(5) TF-

2022년 3월 7일
·
0개의 댓글
·
post-thumbnail

[Text Analytics] 4-1강: Count-based Text Representation

[Text Analytics] 4-1강: Bow, TF-IDF, n-grams

2021년 8월 4일
·
0개의 댓글
·

NLP(Count-Based-Representation)

Natural Language Processing / Vector Representations

2021년 6월 15일
·
0개의 댓글
·
post-thumbnail

[NLP실습]1.자연어 처리 개요-단어 임베딩

이번 포스팅은 앞의 이론에서 언급했었던 임베딩 방법들을 한번 더 설명하고, 구현해보겠습니다.이론 포스팅은 여기를 클릭해주세요.​단어 임베딩이란 컴퓨터가 언어적인 의미가 담겨있는 자연어를 인식하기 위해, 언어적 특성을 반영하여 수치화 하는 것을 뜻합니다.단어 임베딩은 다

2021년 1월 21일
·
0개의 댓글
·
post-thumbnail

[NLP이론]1.자연어 처리 개요-단어 임베딩

"어떻게 자연어를 컴퓨터에게 인식시킬 수 있을까?"에 대한 문제입니다.

2021년 1월 20일
·
0개의 댓글
·