이 페이퍼는 text-generation에 관한 내용을 pretrained-language model 중심으로 다룬 내용 - 여러가지 연구 흐름을 파악하기 용이함필자의 기존 지식과 논문의 내용을 기반해서 요약을 해봄서두1\. 텍스트 생성이란 데이터로부터 자연스러운 말을
: measuring how close mahcine-generated text is to human language is an important issue. MAUVE identifies known properties of generated text and scale
score : 악보polyphonic : 다성음악harmonics : 사람의 귀로 구분할 수 없는 특징들(음악의 새깔)percussives : 리듬과 감정을 나타내는 충격파motifs : 동기; 음악 주제를 구성하는 단위phrases : 악절; 동기가 모인 것
이 논문은 앞으로 gpu 메모리 한계와 긴 training 학습의 한계점이 올 것이라고 예측을 하고, 이러한 문제를 해결하기 위한 두가지의 파라미터 축소 방법을 제공을 한다. 이를 통해 적은 메모리 사용과 학습 시간을 빠르게 가져갈 수 있는 이점을 가진다.제시할 두 가
인간은 사진 몇 장만 가지고 대충 감을 잡아서 예측을 한다. 그러면 인공지능도 수백장을 사용한 fine-tuning없이도 그러한 것을 할 수 있지 않을까? 이러한 철학에서 연구되는 분야가 few-shot learning이다. Training set, Support se
언어를 의사소통수단으로 보는 관점과 internal though로 보는 관점 두 개가 존재한다. EMNLP2021 콘퍼런스에서 Fedorenko’의 FMRI에 기반한 연구에 따르면, 언어는 일종의 predictive한 것으로써, 추론 시스템과 언어 시스템은 분리가 되어
Multimodal data 서로 다른 형태의 정보로 이루어져 뚜렷한 통계적 특성이 구분되는 데이터를 말한다. 관측치 하나(e.g. 반도체)를 설명하기 위해 센서 시그널, 이미지, 텍스트 데이터를 수집할 수 있는 것이 그 예다. 이처럼 다양한 형태로 이루어진 데
investigate self-tarining ans another method to utilize additional data on the same setup최근에 self-supervised learning과 같은 pretraining 방법론이 대두되고 있음.그러나
2-1 define the estimator: pdf: objective function to optimize\-> h는 regression function with sigmoid2-2 connection to supervised : by comparing betwee
contrastive loss is a hardness-aware loss function.(hardness-aware : 애매하지 않고 딱 구분되게 분류할 수 있도록 만들어 주는 것 - inter 멀고 intra에서 가깝고)temperature controls the
DNN loss 조건Train data에서의 Loss 총합은 개별데이터 loss 합과 같아야 한다.DNN 출력 값으로 loss 계산하고 중간 단계에서 하지 않는다.Maximum-Likelihood 관점에 따라정확한 y값보다 y를 평균으로하는 분포를 찾고 싶다.( 분포