LLM OverView

김은배·2024년 1월 18일
0

LLM 총정리

목록 보기
1/10
post-custom-banner

LLM이란?

- 텍스트 다음에 올 단어의 확률을 계산하여 가장 높은 확률의 단어를 선택하는 대규모 언어 모델.

LLM의 능력: 대규모의 언어를 학습했을 시

- In-context Learning: zero shot · few shot learning
- Reasoning(Chain of thought)
- Representation Learning(Pre-training)
	- Data --> Foundation Model --> Tasks

Trend - LLM OS

- window 11, MAC OS와 같이 LLM이 OS의 역할을 할 것이라 예상.
- ex) MS-CoPilot

Transformer

- Transformer는 단어나 문장과 같은 입력데이터에서 중요한 정보를 추출하고 출력 데이터를 생성
- Self-Attention Mechanism은 입력 시퀀스 내의 모든 단어 쌍 간의 상호작용을 계산하여 유의성 학습
- 이를 통해, 문장 내 중요한 정보에 집중하고, 불필요한 정보를 제거하는 것이 가능해짐 
- 이 방식은 병렬 처리가 가능하고, 연산 속도가 빠르다는 장점이 있음

LLM 종류

1. 파라미터 사이즈에 따른 분류: NANO ~ XL / 사이즈가 크다고 반드시 성능이 좋은 것은 아님

2. LLM 서빙 방식
	- Cloud Serving: 정보 보안 문제, 비용문제 발생
	- On-Premise Serving: LLaMa2 등 foundation 모델을 domain specific하게 학습시킴.
	- 구축 시 초기비용이 드나, 정보보안 문제에서 자유로움.
	- 튜닝에 따라 고객이 원하는 기능을 수행할 수 있음. 

3. LLM 처리 데이터에 따른 분류
	- 일반적 LLM: 자연어 처리를 주요 task로 함.
	- Multi-Modal
		1) 이미지 -> 자연어
    	2) 자연어 -> 이미지
    	3) 자연어 -> 동영상 
    

LLM 구축 사례

1. Bloomberg GPT
	- 금융영역에 초점을 맞춘 최초의 LLM
	- 금융업무 중, 내부 문서업무 효율성에 집중

최근 LLM 학습의 문제점: Scale

- 너무 많은 GPU 리소스를 줄이기 위해 PEFT + Deepspeed 사용 

- PEFT: LoRA, Prompt Tuning, P-Tuning, Prefix-Tuning 

- 특히 LoRA는 low Rank를 찾아 특정 행렬 절단 기법을 통해 이 부분만 업데이트 

- Deepspeed: 대규모 분산 딥러닝 메모리 최적화 기술
	- 분산학습: 여러 GPU, 장치에서 모델 학습
    - 모델 최적화: 효율적 학습을 위한 파라미터, 최적화 기술 제공 
    - 메모리 최적화
profile
hello!
post-custom-banner

0개의 댓글