# LDA

17개의 포스트
post-thumbnail

파이썬 머신러닝 완벽 가이드 - 7. Dimension Reduction(1) (PCA, LDA)

: 매우 많은 피처로 구성된 다차원 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것다차원 데이터 세트의 문제점차원이 증가할 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지고, 희소한Sparse 구조를 가져 예측 신뢰도가 떨어진다.다중공선성 문제(독립

2022년 10월 11일
·
0개의 댓글
·

[CS224n #3] Topic Modeling - LSA/LDA/ BERTopic

0. Summary Topic modeling : corpus 집합에서 통계적 분석 방식을 사용해서 문서의 context를 담고 있는 유의미한 word를 뽑아내고 representation 만들기. DTM : Document-Term Matrix / 문서 단어 행렬 키워드로 보는 Method LSA : #유사도, #토픽 모델링 아이디어 시초 #SVD ...

2022년 9월 21일
·
0개의 댓글
·
post-thumbnail

PCA & LDA

데이터셋에 대해 이야기 할 때, 차원이란 feature와 동의어입니다. 차원 축소의 기법인 PCA 와 LDA에 대해 공부하고, 두 방식의 공통점과 차이점에 대해 서술하세요.

2022년 8월 26일
·
0개의 댓글
·
post-thumbnail

EVD, SVD, PCA, LDA

기저란 백터공간 V에 대하여 임의의 벡터집합 S가 ① 서로 1차 독립이면서 ② 벡터공간 V를 생성하면 S는 V의 기저이다.

2022년 7월 3일
·
0개의 댓글
·
post-thumbnail

Everything about PCA#3

오늘은 지난시간에 이어 LDA실습을 colab환경에서 진행해 보려 한다. Importing the librariesImporting the datasetSplitting the dataset into the Training set and Test setFeature S

2022년 5월 23일
·
0개의 댓글
·
post-thumbnail

Everything about PCA#2

지난시간에 이어서 모델의 성능향상을 위한 '차원축소'에 관하여 다루고있는데, 오늘은 LDA에 대하여 포스팅해보려 한다. 이둘의 차이점, 공통점을 알아보며 쉽게 이해해보도록 하자!<span style='background-color: =<span style='

2022년 5월 23일
·
0개의 댓글
·
post-thumbnail

국민청원 데이터 수집 및 토픽 모델링

R을 사용하여 국민 청원 데이터를 수집 및 분석하는 작업을 진행해보았습니다.과정은 데이터 수집데이터 분석두 과정으로 나누어서 기술하도록 하겠습니다!제가 진행한 개인 프로젝트에 대한 소개 글로 수집 기술, 분석 기술에 대한 이론적인 정리나 자세한 설명까지는 담지 못하였습

2022년 4월 17일
·
0개의 댓글
·

텍스트 벡터화

Word2Vec의 대중화 이전에, 텍스트의 분포를 활용하여 텍스트를 벡터화하는 아이디어를 들여다보자. 단어 빈도를 이용한 벡터화(1) Bag of Words(2) Bag of Words 구현해보기(3) DTM과 코사인 유사도(4) DTM의 구현과 한계점(5) TF-

2022년 3월 7일
·
0개의 댓글
·
post-thumbnail

LDA 토픽 모델링으로 콘텐츠 리뷰를 분석하자

LDA 토픽 모델링은 다른 분석들 보다도 어떤 주제에 대해 여론이 형성되었지 확인하기 편리해서 특히 연구를 시작하는 단계에서 한번 해볼만한 분석이죠. 물론 토픽모델링 자체로도 하나의 연구가 될 수 있고요!

2022년 2월 4일
·
4개의 댓글
·

Topic modeling(LSA, LDA)

Topic modeling의 두 가지 알고리즘(LSA, LDA)을 구현해 보자

2022년 1월 28일
·
0개의 댓글
·

Latent Dirichlet Allocation, LDA

토픽 모델링 : 문서의 집합에서 토픽을 찾아내는 프로세스(문서의 주제를 알아내는 일)★잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)은 토픽 모델리의 대표적인 알고리즘LDA : 토픽들의 혼합으로 구성되어져 있으며, 토픽들은 확률 분포에

2022년 1월 11일
·
0개의 댓글
·

차원축소

많은 피처로 구성된 데이터세트의 경우, 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다. 또한 개별 피처간에 상관관계가 높을 가능성도 크다. 선형회귀와 같은 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 이로 인한 다중공선성 문제로 모델의 예측

2022년 1월 5일
·
1개의 댓글
·
post-thumbnail

머신러닝 - LDA (Linear Discriminant Analysis)

선형판별분석(Linear Discriminant Analysis, LDA)는 Classification(분류모델)과 Dimensional Reduction(차원 축소)까지 동시에 사용하는 알고리즘이다.LDA는 PCA와 유사하게 입력 데이터 세트를 저차원 공간으로 투영(

2021년 12월 9일
·
0개의 댓글
·
post-thumbnail

FastText 와 LDA 이해하기

이번에 프로젝트를 마무리 함에 있어서 FastText 와 LDA에 대해 다시 한 번 정리하는 시간을 가져보고자 한다. LDA에 관하여 우선 LDA 즉 잠재 디리클레 할당에 대해서 이해 하기 위해서 토픽 모델링과 기존에 작성하였던 TF-IDF로 추천 시스템 구현하기

2021년 10월 11일
·
0개의 댓글
·

[인사이드 머신러닝] 차원축소: 선형판별분석 (Linear Discriminant Analysis, LDA)

LDA는 전통적인 선형 학습법이며, 이진 분류 문제에서 Ronald A. Fisher가 가장 먼저 사용하였기 때문에 Fisher's discriminant analysis (FDA)라고도 불린다. 아이디어는 간단하지만 강력하다. 훈련 데이터를 어떠한 직선 위에 투영시킨

2021년 8월 31일
·
0개의 댓글
·
post-thumbnail

LDA

LDA분류기로 Iris 데이터 분류하기

2021년 6월 18일
·
0개의 댓글
·

NLP_L2_Vectorization_KIY

텍스트를 숫자로 변환하는 벡터화, 그래야 컴퓨터가 알아들을 수 있으니까벡터화 방법으로는(1) 통계와 머신 러닝을 활용한 방법(2) 인공 신경망을 활용하는 방법이번에는 (1)번만 배울 예정이다.단어들의 분포로 문서를 특성을 파악하는 기법이 가방은 중복을 제거하지않고 단어

2021년 4월 10일
·
0개의 댓글
·