1. 사전학습
- 텍스트 분류, 질문 답변, 문서 요약 및 텍스트 생성과 같은 공통 언어문제 해결을 위해 모델 학습
2. 미세조정
- 사전훈련된 LLM을 상대적으로 적은 양을 가진 산업현장 dataset을 사용하여 훈련시킴.
- 이를 통해 특정 작업 또는 도메인에 맞도록 미세조정하도록 하는 프로세스
- ex) Bloomberg GPT
3. Hallucination
- LLM에서 허구의 내용이나, 부정확한 내용을 제시하는 현상
- 발생원인
- 참조할 정보 X
- 부정확한 정보를 보유했을 때
- 유사 정보, 해당 정보, Domain knowledge로 해결: Pre-Training, Fine-Tuning
- LLM에 질문할 때, 정확한 정보를 같이 제공하여 문제를 해결
- ex) In-Context Learning, Prompt Engineering, RAG
4. N-Shot Learning
- LLM을 학습시키는데 시간과 비용이 많이 필요함.
- Zero-shot: 충분히 학습되어있는 모델에게 맥락을 주지 않고 결과 도출
- Few-shot: 몇 개의 맥락을 주고 결과 도출
5. LLM을 위한 NLP
- 자연어 처리: 컴퓨터가 인간의 언어를 학습하고 이해하여 자연어를 말할 수 있게 하는 AI 분야
- Transformer: 획기적인 자연어 처리 알고리즘
- Multi Head-attention: CNN에서 여러 필터 사용하는 것처럼 h개의 self-attention 사용
- Positional Encoding: 각 단어의 위치에 따라 고유한 값 부여, 모델이 단어의 순서 인식
6. Tokenizer
- LLM에서는 Text를 토큰이라는 최소 단위로 분할하여 처리
- Tokenizer: 토큰으로 분할하는 프로그램으로 Text를 단어, 서브단어, 문자부호 등 토큰으로 나눔
- Text 전처리의 핵심 과정
- 종류: white space tokenizer, regex tokenizer....
7. Word Embedding
- 단어의 의미와 위치를 실수 및 벡터로 표현 --> 유사한 단어들은 벡터 공간에서 군집 형성
- 두 단어 벡터 사이의 거리로 유사도를 확인할 수 있음
8. Hugging Face
- Code, 언어모델, Dataset을 공유하고, 모델을 보다 쉽게 실행할 수 있는 Platform 제공
9. Prompt Engineering
- LLM에게 적절한 지시어와 사전정보를 제공하여 높은 수준의 결과물을 얻도록 유도하는 기법
- 자연어로 인공지능의 역량을 최대로 끌어내는 것이 핵심
- 원하는 임무와 목적을 명확하게 기입하여, 특정한 형식에 맞게 출력하도록 지정
- 추론 문제 등을 풀기 위해 Chain of Thought 기법을 사용함
- 프롬프트에 문답형식으로 풀어서 입력했을 때, 더 효과적인 것으로 알려짐
- CoT 기법은 다시 Zero-Shot, Few-shot Learning으로 나뉨