LLaMa
Large Language Model Meta AI의 줄임말
역사
오픈소스라 공개된 학습가능한 데이터로만 학습
2023년 2월에 1 공개 - 7B, 13B, 33B, 65B
2023년 7월에 2 공개 - 7B, 13B, 34B, 70B
2는 1과 다르게 Grouped-Query Attention 적용
Grouped-qeury
Multi-head는 각 query마다 key가 매칭된다.
Multi-query는 모든 query가 하나의 key에 매칭된다. (multi-head에 비해 메모리 절약되나 학습이 불안정할 수 있음)
Grouped-query는 Multi-head와 multi-query의 중간으로써 메모리를 절약하고 추론 속도도 빠르고 성능도 챙길 수 있음
다른 모델과의 차이
OpenSource라는 것.
code LLaMA
- Code-training from foundation models
- 코드 데이터만 학습한 대부분의 코드 생성 모델과는 달리 일반 텍스트와 코드 데이터를 같이 학습시킴
- Infiliing
- LLM의 autoregressive training이나 fine-tuning은 prompt completion은 가능하나 전체 맥락을 고려하여 누락된 부분을 채우는 능력까지는 보장할 수 없음.
- 코드 학습을 통하여 autoregressive 및 causal infilling을 할 수 있는 multitask objective를 바탕으로 코드 편집이나 docstring 생성에서 real-time completion이 가능하게 함
- Long input contexts
- 함수나 파일 레벨이 아닌 repository 레벨에서의 추론을 가능하게 하기 위해 LLaMA 2에서 사용된 RoPE positional embedding의 파라미터를 수정하여 max context length 를 4,096토큰에서 100,000 토큰으로 확장.
- Instruction fine-tuning
- 더 나은 안정성과 유용성을 위해 LLaMA 2가 생성한 코딩 질문에 대하여 Code LLaMA가 답변을 생성하도록 함으로써 사람이 아닌 기계로 생성된 자체적인 Instruction fine-tuning 데이터셋을 사용함으로써 진실되면서도 편향되거나 유해하지 않은 코드를 생성하게됨.
Purple LLaMA
개발자들이 더 책임감있는 LLM 만들 수 있게함.
아래부터 Purple LLaMA들.
CyberSecEval(2023)
더 발전한 모델일수록 더 안전하지 않은 코드를 만드는 경향이 있음을 발표한 논문
Llama Guard
프롬포트와 그에 대한 반응이 안전한 지 판별할 수 있는 모델 (2023 논문과 함께)