Corpora for Pre-training
- Books
- CommonCrawl
- Reddit Links
- Wikipedia(한국은 나무위키)
- Code
- 허깅페이스에서 개발
- transformers을 사용해서 모델 개발
- 수천개의 사전학습 모델 제공
Deepspeed
- 마이크로소프트에서 개발
- 딥러닝 최적화 라이브러리
Megatron-LM
LoRA
- 마이크로소프트에서 개발
- LLM 모델 학습을 효율적으로 하기위한 Low-Rank Adaptation 제공
LangChain
- LLM과 상호작용해서 여러 LLM을 쓸 수 있음.
- 대부분의 LLM 기능 확장성 좋게 사용 가능
LLaMA-Index
- 모든 데이터 인덱싱
- 시멘틱 서치 가능하게 해줌
LLM이 만들어지는 과정
- Data Cleaning (노이즈 및 아웃라이어 제거, 인밸런스 문제 해결, 텍스트 전처리, 중복되는 데이터 제거)
- Tokenizations(BytePairEncoding, WordPieceEncoding, SentencePieceEncoding)
- Positional Encoding
- LLM Architectures 결정 (대부분은 병렬처리와 용량을 보장하기 때문에 transformers 사용)
- Model Pre-training
- Fine-tuning and Instruction Tuning
- Aligment
- Decoding Strategies
- Cost-Effective Training/Inference...
- 사람의 피드백..!!!!