LLM 이란?
- 한국어로는 대규모 언어 모델이고 간단하게 이해하기 위해서는 ChatGPT라고 생각하면 된다.
- 좀 더 나름 그럴싸한 설명으로는 "방대한 양의 데이터를 기반으로 학습하고 자연어 질의에 대해 인간과 비슷한 응답을 만들어내는 AI"이다. 딥러닝 모델의 일종이다. 기본 트랜스포머는 셀프 어텐션(self - attention) 기능을 갖춘 인코더와 디코더로 구성된 신경망 세트이다. 인코더와 디코더는 일련의 텍스트에서 의미를 추출하고 텍스트 내의 단어와 구문 간의 관계를 이해한다.
LLM의 작동 방식
- 딥러닝 기술과 방대한 양의 텍스트 데이터를 활용하여 작동함. 여러 계층의 신경망으로 구성되며, 각 신경망은 학습 중에 미세 조정할 수 있는 파라미터가 있으며, 이는 데이터 세트의 특정 부분에 영향을 미치는 어텐션 메커니즘으로 알려진 수 많은 계층을 통해 더욱 향상됨. 훈련 과정에서 이전 단어가 제공하는 컨텍스트를 기반으로 문장의 다음 단어를 예측하는 방법을 학습함. 이 모델은 토근화된 단어를 더 작은 문자 시퀀스로 분류하여 반복되는 단어에 확률 점수를 부여함으로써 이를 수행함. 정확성을 보장하기 위해 이 프로세스에는 수십억 페이지에 달하는 방대한 텍스트 말뭉치로 LLM을 학습시키고, 제로 샷 및 자기 지도 학습을 통해 문법, 의미론, 개념 관계를 학습하도록 하는 과정이 포함됨. 이 학습 데이터에 대한 학습이 완료되면 LLM은 입력된 입력에 따라 다음 단어를 자율적으로 예측하고 습득한 패턴과 지식을 활용하여 텍스트를 생성할 수 있다. 그 결과 광범위한 NLU 및 콘텐츠 생성 작업에 활용할 수 있는 일관되고 상황에 맞는 언어 생성이 가능함.
- LLM 작동 방식의 핵심 요소는 단어를 나타내는 방식이다. 이전 형태의 기계 학습은 숫자표를 사용하여 각 단어를 표현했다. 그러나 이러한 형태의 표현으로는 비슷한 의미를 가진 단어와 같은 단어 간의 관계를 인식할 수 없었다. 일반적으로 워드 임베딩이라고 하는 다차원 벡터를 사용하여 벡터 공간에서 문맥상 의미가 비슷하거나 다른 관게가 있는 단어가 서로 가깝도록 단어를 표현함으러써 이런한 한게를 극복함.
LLM 사용 사례
- 텍스트 생성 : 불완전한 문장을 완성함 -> 검색 증강 생성(RAG)이 있음
- 콘텐츠 요약
- AI 어시스턴트
- 코드 생성
- 언어 번역
등
참고
https://m.post.naver.com/viewer/postView.naver?volumeNo=37358591&memberNo=36733075
https://aws.amazon.com/ko/what-is/large-language-model/
https://www.ibm.com/kr-ko/topics/large-language-models