문장이 얼마나 자연스러운지에 대한 확률을 계산하여 문장 내 특정 위치에 나타나는 데 적합한 단어를 확률적으로 예측하는 모델입니다쉬운 방법으로, Language Model은 이전 단어들을 기반으로 다음 단어를 예측합니다1) 대화 또는 기타 자연어 입력에 대한 인간과 같은
GPT 가 원래 출발했던 그러한 알고지름 매커니즘이 있는데, 그것을 Traditional Languate Model by Seq to Seq 라고 부르기도 한다. RNN 이 기반이 되어서 그동안의 전통적인 LM 을 구사해왔다. GPT는 이러한 사전 연구로 부터 출발했다
Attention Mechanism in Deep Learning: 모든 단어를 보는것 x -> 특정 단어르 집중적을 봐야한다. General Attention :인풋과 아웃풋의 짝의 관계 Self-Attention :인풋 안에 센텐스에서의 관계 (How 와 was
인코더의 결과가 디코터의 합류를 하는 형태의 아키텍쳐이다.타켓을 넣어서 학습을 시켰더니 더 잘 되더라 -> 디코더의 인풋과 아웃풋에는 둘다 정답지가 들어가있다.인코더 레이어 부분을 N회 반복해 디코더의 멀티 헤더 어텐션 부분에 합류한다.1) I love the musi
dads
as
Self-supervised Learning 는 자기 문장 안에서 학습하는것Unsupervised 는 센터를 지정해줘서, 선터에 있는 데이터와 가까운 데이터들을 원으로 묶어준다. 이것을 바로 clustering, 이것이 Unsupervised 고양이와 개를 분류하는 문
기본적으로 META에서 2023년 2월에 개발한 LlaMA의 아키텍처는 GPT와 거의 같다그러나 LlaMA 아키텍처와 GPT 아키텍처 간에는 몇 가지 차이점이 있다.RMS(Root Mean Square) NormalizationLlaMA 2는 배치 정규화를 사용하는 대