LLM이란?
- 텍스트 다음에 올 단어의 확률을 계산하여 가장 높은 확률의 단어를 선택하는 대규모 언어 모델.
LLM의 능력: 대규모의 언어를 학습했을 시
- In-context Learning: zero shot · few shot learning
- Reasoning(Chain of thought)
- Representation Learning(Pre-training)
- Data --> Foundation Model --> Tasks
Trend - LLM OS
- window 11, MAC OS와 같이 LLM이 OS의 역할을 할 것이라 예상.
- ex) MS-CoPilot
- Transformer는 단어나 문장과 같은 입력데이터에서 중요한 정보를 추출하고 출력 데이터를 생성
- Self-Attention Mechanism은 입력 시퀀스 내의 모든 단어 쌍 간의 상호작용을 계산하여 유의성 학습
- 이를 통해, 문장 내 중요한 정보에 집중하고, 불필요한 정보를 제거하는 것이 가능해짐
- 이 방식은 병렬 처리가 가능하고, 연산 속도가 빠르다는 장점이 있음
LLM 종류
1. 파라미터 사이즈에 따른 분류: NANO ~ XL / 사이즈가 크다고 반드시 성능이 좋은 것은 아님
2. LLM 서빙 방식
- Cloud Serving: 정보 보안 문제, 비용문제 발생
- On-Premise Serving: LLaMa2 등 foundation 모델을 domain specific하게 학습시킴.
- 구축 시 초기비용이 드나, 정보보안 문제에서 자유로움.
- 튜닝에 따라 고객이 원하는 기능을 수행할 수 있음.
3. LLM 처리 데이터에 따른 분류
- 일반적 LLM: 자연어 처리를 주요 task로 함.
- Multi-Modal
1) 이미지 -> 자연어
2) 자연어 -> 이미지
3) 자연어 -> 동영상
LLM 구축 사례
1. Bloomberg GPT
- 금융영역에 초점을 맞춘 최초의 LLM
- 금융업무 중, 내부 문서업무 효율성에 집중
최근 LLM 학습의 문제점: Scale
- 너무 많은 GPU 리소스를 줄이기 위해 PEFT + Deepspeed 사용
- PEFT: LoRA, Prompt Tuning, P-Tuning, Prefix-Tuning
- 특히 LoRA는 low Rank를 찾아 특정 행렬 절단 기법을 통해 이 부분만 업데이트
- Deepspeed: 대규모 분산 딥러닝 메모리 최적화 기술
- 분산학습: 여러 GPU, 장치에서 모델 학습
- 모델 최적화: 효율적 학습을 위한 파라미터, 최적화 기술 제공
- 메모리 최적화