GPT의 간단한 작동원리

권보원·2023년 7월 8일
0
post-thumbnail

Generative Pre-Trained Transformer

한글로는 생성적 사전학습 트랜스포머라고 할 수 있다
Transformer라는 개념이 핵심이다.

Transformer

트랜스포머는 GPT모델군의 근간이 되는 딥 러닝 모델이다.
순차처리에 좋은 모델이다(텍스트 데이터)

기존의 Neural Networks, RNN도 텍스트 작업에 좋지만
한번에 한 단어씩 순차적으로 입력 데이터를 훑으면서 작업하게 되어 분량이 긴 텍스트는 훑다가 앞의 내용을 까먹게 되어 긴 텍스트에 좋지 않다. 그리고 학습 속도도 매우 느려 대량의 데이터를 학습하기 어렵다.

트랜스포머는 입력을 순차적으로 처리하지 않고 한꺼번에 처리한다
그렇기에 앞의 내용을 까먹지 않을 수 있다.
순차적으로 처리하지 않기에 병렬 학습이 가능하다

Transformer의 구조

이 트랜스포머의 구조에 핵심 개념 2가지가 Position Encoding과 Self Attention이다

Position Encoding

트랜스포머모델은 문장을 단어별로 순차적으로 처리하지 않고 위치 데이터를 인코딩한다 입력 데이터의 각 부분에 대한 위치 정보를 받아 신경망에 넣는다.

그래서 어순 또는 토큰 순서 정보가 신경망 구조가 아닌 데이터 자체에 저장된다.
신경망은 실제 데이터로 어순의 중요도를 파악하게 된다

Attention

선택적으로 데이터의 부분만 집중하는 네트워크 메커니즘이다.
신경망이 입력 데이터의 작은 부분에 주으이를 집중하고 그걸 동적으로 전환해가며 데이터를 처리하게 하는 능력이다.
가장 흔한 방법은 입력 데이터의 각 부분에 어텐션 점수를 매겨 해당 요소들의 가중치 합이나 평균을 구하는 것이다.
어떤 부분이 중요한지는 방대한 입력 데이터로 습득한다. 데이터만 충분하면 알아서 원리를 파악하고 중요도를 파악할 수 있다.

Self-Attention

입력 시퀸스 내의 각 요소를 나머지 요소들과 비교해 각 요소 쌍마다 서로의 유사도를 기반으로 어텐션 가중치를 계산한다
Self는 인코딩 중인 입력 시퀸스의 각 부분을 뜻한다
입력을 받으면 한 단어씩 훑고 단어마다 다른 단어들과 어떻게 연결되었는지 어텐션 가중치를 계산한다.

0개의 댓글

관련 채용 정보