LLM 동작 원리 (Resources)

원장·2024년 6월 1일

LLM

목록 보기

6/10

Corpora for Pre-training

Books
CommonCrawl
Reddit Links
Wikipedia(한국은 나무위키)
Code

transformers

허깅페이스에서 개발
transformers을 사용해서 모델 개발
수천개의 사전학습 모델 제공

Deepspeed

마이크로소프트에서 개발
딥러닝 최적화 라이브러리

Megatron-LM

LLM 학습을 위해 NVIDIA에서 개발

LoRA

마이크로소프트에서 개발
LLM 모델 학습을 효율적으로 하기위한 Low-Rank Adaptation 제공

LangChain

LLM과 상호작용해서 여러 LLM을 쓸 수 있음.
대부분의 LLM 기능 확장성 좋게 사용 가능

LLaMA-Index

모든 데이터 인덱싱
시멘틱 서치 가능하게 해줌

LLM이 만들어지는 과정

Data Cleaning (노이즈 및 아웃라이어 제거, 인밸런스 문제 해결, 텍스트 전처리, 중복되는 데이터 제거)
Tokenizations(BytePairEncoding, WordPieceEncoding, SentencePieceEncoding)
Positional Encoding
LLM Architectures 결정 (대부분은 병렬처리와 용량을 보장하기 때문에 transformers 사용)
Model Pre-training
Fine-tuning and Instruction Tuning
Aligment
Decoding Strategies
Cost-Effective Training/Inference...
사람의 피드백..!!!!

나 원장이 아니다

이전 포스트

Gemini

다음 포스트

LLM 으로 해야할 일

0개의 댓글