LLM 동작 원리 (Resources)

원장·2024년 6월 1일

LLM

목록 보기
6/10

Corpora for Pre-training

  • Books
  • CommonCrawl
  • Reddit Links
  • Wikipedia(한국은 나무위키)
  • Code

transformers

  • 허깅페이스에서 개발
  • transformers을 사용해서 모델 개발
  • 수천개의 사전학습 모델 제공

Deepspeed

  • 마이크로소프트에서 개발
  • 딥러닝 최적화 라이브러리

Megatron-LM

  • LLM 학습을 위해 NVIDIA에서 개발

LoRA

  • 마이크로소프트에서 개발
  • LLM 모델 학습을 효율적으로 하기위한 Low-Rank Adaptation 제공

LangChain

  • LLM과 상호작용해서 여러 LLM을 쓸 수 있음.
  • 대부분의 LLM 기능 확장성 좋게 사용 가능

LLaMA-Index

  • 모든 데이터 인덱싱
  • 시멘틱 서치 가능하게 해줌

LLM이 만들어지는 과정

  1. Data Cleaning (노이즈 및 아웃라이어 제거, 인밸런스 문제 해결, 텍스트 전처리, 중복되는 데이터 제거)
  2. Tokenizations(BytePairEncoding, WordPieceEncoding, SentencePieceEncoding)
  3. Positional Encoding
  4. LLM Architectures 결정 (대부분은 병렬처리와 용량을 보장하기 때문에 transformers 사용)
  5. Model Pre-training
  6. Fine-tuning and Instruction Tuning
  7. Aligment
  8. Decoding Strategies
  9. Cost-Effective Training/Inference...
  10. 사람의 피드백..!!!!
profile
나 원장이 아니다

0개의 댓글