LLM에 대한 개념을 정리해보았다. 사실 데스크탑에 4080 이상 그래픽 카드 달고 연습하는게 제일 좋은 방법이지만 아직은 그럴만한 여유는 없으니까......(그리고 이 KDT심화과정도 거의 대부분 colab에서 실습을 한다.)
정의: LLM 성능은 모델 크기(파라미터 수), 데이터 양, 연산량(FLOPs)의 함수
관계식: 로그-선형(Power Law) 형태
: 파라미터 수, 데이터 크기, 또는 연산량
: 감소율 지수
일정 시점 이후 비효율적 증가 구간 → Fine-tuning, RLHF 필요
목적: 범용 언어 지식(문법, 구조, 개념, 상식)을 대규모 텍스트로 학습
방식
Autoregressive: 다음 토큰 예측 (GPT)
Masked Language Modeling (MLM): 일부 토큰 마스킹 후 복원 (BERT)
Seq-to-Seq: 입력 시퀀스를 출력 시퀀스로 변환 (T5)