컴퓨터에서 모든 word를 vector로 표현한다. text t 에서 center word C와 context word O를 가진다. C 와 O의 similarity of the word vector를 사용하여서 O의 probability를 계산한다 (C가 주어졌을 때
복습저번 강의에서 배운 word2vec을 복습한다. 우리는 각 텍스트(문장)에서 중심단어(V : center word) 와 바깥단어(U : outside)를 가진다. 그리고 이들에 대한 확률을 얻기 위해서 dot product를 진행한다. 그런다음 softmax를 사용
“나는 지금”이란 문장 뒤에 올 단어를 어떻게 예측하는가? 초기의 언어 모델은 통계를 기반으로 구축되었다. 확률 분포를 기반으로 주어진 문맥(sequence) 이후에 위치할 단어를 예측하는 것이다. 이때 사용하는 확률 기법은 multiplication rule 이다.
이 방법은 머신러닝을 Translation에 사용하기 전 1990-2010쯤 까지 사용된 방법이다. Statistical Machine Translation(SMT)는 데이터로부터 확률적 모델 (Probabilistic model)을 학습하여 Translation을 진
이 강의는 사고의 흐름에 따라 정리되어있다. 현재 모델의 문제점을 소개하고 이를 해결하는 기술을 알려주는 방식으로 설명된다. (개인적으로 매우 마음에 들었다) 강의내용의 밀도가 굉장히 높았기 때문에 이번 포스팅에서는 Attention만 정리하도록 하겠다 (2) 에서 T
이 포스팅에서는 Tranformer모델에 대해서 알아볼 것이다. 목차는 다음과 같다. 각각 Transformer Encoder 두 번, Transformer Decoder을 두 번씩 지난다. Encoder와 Decoder의 내부 과정은 위의 그림과 같다. 이제 우리가
텍스트의 정보를 얻을 수 있는 곳은 다음과 같다. text passageall web documentsknowledge basetablesimages질문의 종류에는 다음과 같은 것들이 있다. factoid vs non-factoidopen-domain vs closed
natural language generation 테스크는 기본적으로 텍스트를 생성하는 것으로 대표적으로는 summarizationmachine translationdialogue systemdata- to - generationvisual description등이 있
현재까지의 transfer learning에 대해 사람들이 제안한 논문들을 보면, 특정 task를 해결하기 위해서 구조를 살짝 바꾸거나 파라미터를 조정하는 시도들이 많다. 하지만, 모든 것을 같게 세팅하는, 최고의 모델을 만들순 없을까?즉, T5, text-to-tex