Transformers 이전의 텍스트 생성 RNN

Dev_Goomin·2024년 4월 9일
0

Generative Ai LLM

목록 보기
2/9
post-thumbnail

지난 몇 년 동안 LLM의 역량이 급격히 증가한 것은 주로 LLM을지원하는 아키텍처 덕분입니다.

이전 세대의 언어 모델은 순환 신경망 (RNN) 이라는 아키텍처를 사용했습니다.

당시로서는 강력했지만 Generative 작업을 잘 수행하는 데 필요한 컴퓨팅과 메모리의 양이 제한적이었습니다.


Generating text with RNNs

간단하게 다음 단어를 예측하여 생성 작업을 수행하는 RNN의 예를 들어보겠습니다.

!@#!@$!@$ tastes...

모델에서 볼 수 있는 이전 단어가 하나뿐 이면 예측이 그다지 좋지 않을 수 있습니다.
또한 텍스트에서 이전 단어를 더 많이 볼 수 있도록 RNN 구현을 확장하려면
모델이 사용하는 리소스를 크게 확장해야 합니다.


How To Generating text?

다음 단어를 성공적으로 예측하려면 모델이 이전 단어의 몇 개만 보는 것이 아니라 더 많은 것을 볼 수 있어야 합니다.

모델은 전체 문장이나 또한 문서의 전체를 이해할 수 있어야 합니다.

하지만 문제는 언어들이 매우 복잡 하고, 여러 언어에서 한 단어는 여러 의미를 갖는 동음이의어가 있기 때문입니다.

이러한 문제는 문장의 문맥과 맥락을 통해서만 동음이의어가 어떤 의미를 갖는지 알아 낼 수 있습니다.

Ai 모델이 아닌 사람들도 가끔은 사람들이 하는 말을 잘 이해하지 못 하는 경우가 많은데 어떻게 알고리즘으로 Ai모델이 사람들의 언어를 이해할 수 있게끔 할까요?


Attention Is All You Need

Attention Is All You Need

2017년 Attention Is All You Need 라는 논문이 나온 이후로 모든 것이 바뀌었다고 합니다.

Transformers 아키텍쳐가 등장하였고 이 새로운 접근 방식을 통해 오늘날 우리가 보고 있는 Generative AI의 발전이 가능해졌습니다.


profile
LLM을 배워보자..!

0개의 댓글