LDA와 같은 모델을 PTM, BERT,DistilBERT와 같은 모델을 사용한 방식은 PLM이라 명칭 (사용한 데이터셋은 IMDB, 20newsgroups dataset사용) > ### 논문명 --> Topics in Contextualised Attention E
최근, 기술의 발전과 함께 더불어 빅데이터라는 개념이 생겼다. 다양한 형태의 데이터 중, 텍스트 데이터를 처리하는 방식에도 많은 기법이 등장했는데 현재 많이 사용하는 PLM 방식에 대해 알아보고자 한다. 이전에 말했듯이, 다양한 text data가 생겨나고 이데 따
https://velog.io/@yjhut/NLP-%EA%B4%80%EB%A0%A8-%EB%85%BC%EB%AC%B8-%EA%B0%9C%EB%85%90-%EC%A0%95%EB%A6%AC-%EA%B3%B5%EB%B6%80이전에 위 링크에서 NLP 논문에 대한 리
seq2seq라고도 불리는 시퀀스 투 시퀀스 모델은 기존의 RNN을 활용하여 만든 모델이다. 특히 자연어처리 (NLP) 분야에서 많이 쓰였고 이 모델의 영향을 받아 여러 변형 모델이 생기고, 아직도 많이 사용하고 있다.특히 seq2seq는 입력된 데이터를 transla
트랜스포머는 지난 2017년 NIPS에서 Transformer: attention is all you need라는 제목의 논문으로 처음 등장 하였다. RNN과 LSTM을 사용한 모델과는 달리 트랜스포머는 약 3년 전에 나온 어텐션 매커니즘을 기반으로 하는 새로운 구
최근 다양한 분야에서 각광받는 NLP(자연어처리)는 많은 언어를 대상으로 수행될 수 있다.하지만 본 처리 이전에 필히 거쳐야 할 과정이 있는데 바로 '전처리' 과정이다.전처리를 진행하지 않고 NLP task를 수행하면 그 결과가 전처리를 한 결과와 비교했을 때 대부
오늘은 토픽 모델링 시, 프롬프트 엔지니어링을 사용하는 방법에 대해서 알아보려 한다.토픽 모델링은 많은 텍스트 데이터에서 인사이트를 뽑아내는 역할을 한다.토픽 모델링 알고리즘으론 확률 기반의 LDA, 행렬분해 기반의 NMF 등 다양한 알고리즘이 사용되고 있다.오늘은 그
(i - Data Point)S(i): 실루엣 계수b(i) : 클러스터 간 분리도a(i) : 클러스터 내 응집도 각 지표 계산은 아래 그림을 예로 설명ex)데이터 포인트 간 거리가 계산 되었을 때, 1.5+1.2+1.7+2.2) / 4 = 1.65 (거리의 평균)(즉!