LLM 용어정리

Lam Lee·2025년 3월 9일

Softmax Regression Tokenization in-context learning temperature 토큰화

LLM

목록 보기

2/8

Tokenization (토큰화)

1_1) Token 정의 : 텍스트를 구성하는 개별 단위
1_2)Tokenization 정의 : 주어진 텍스트를 개별 토큰으로 분리하는 과정.
: 공백, 구두점, 특수 문자를 기준으로 나눌수도 있지만, 문맥에 따라 다를 수도 있음. 한국어는 형태소 단위로 토큰화 할때도 있었음.
2) 토큰 종류 : 단어 토큰, 문장 토큰, 문단 토큰, 알파벳/형태소 토큰, 문장 토큰
3) 토큰화의 중요성
대부분 NLP 작업에서 텍스트 자체를 다룬다기 보단, 토큰화하여 각 토큰 기반으로 처리이며, 필수적.
4) 토큰화 종류에 따른 비교

토큰 시퀀스(Token Sequence): 텍스트를 토큰화한 후 생성된 연속된 토큰들의 리스트
A) 단어 단위 토큰화 → 짧은 토큰 시퀀스 (ex. ["I", "love", "NLP"])
B) 문자 단위 토큰화 → 긴 토큰 시퀀스 (ex. ["I", " ", "l", "o", "v", "e", " ", "N", "L", "P"])
C) 서브워드 단위 토큰화 → 중간 길이의 토큰 시퀀스 (ex. ["play", "ing"])

서브워드 토큰화는 단어 단위와 문자 단위의 중간 형태로, 최근 LLM에서 가장 널리 사용됨.

In-context learning (인컨텍스트 러닝)

1) 기존 fine tunning의 한계

Fine-Tuning(파인 튜닝)은 사전 학습된 대형 언어 모델(LLM)에 추가적인 데이터셋을 사용하여 특정 작업에 맞게 추가 학습하는 과정이며, 아래 단점이 있음.

✅ 높은 비용 & 시간 소모
모델을 다시 학습해야 해서 많은 연산 리소스(GPU, TPU)가 필요함.
특히 거대한 LLM을 파인 튜닝하면 비용이 많이 듦.

✅ 특정 도메인에만 최적화됨
파인 튜닝된 모델은 특정 작업(task)에만 특화됨.
즉, 새로운 작업을 수행하려면 추가로 다시 학습해야 함.

✅ 데이터 준비가 어려움
많은 경우 데이터 수집과 가공이 어렵거나, 도메인마다 데이터가 부족할 수 있음.

2) In-context learning 등장과 종류 : Zero-shot, One-shot, Few-shot

Fine-Tuning은 모델을 업데이트해서 새로운 작업을 학습하는 방식이라면,
In-Context Learning은 LLM이 기존 지식 활용하여, 주어진 예제만 보고 "즉석에서" 학습하는 방식.
샷별 성능 비교 : 1개 예제만 줘도 성능이 많이 향상됨.

3) In-context learning 과 Prompt Engineering

앞으로는 추가적인 Fine-tunning 보다도 In-context learning 만으로도 원하는 결과를 얻을 수 있게되면서, 어떻게 프롬프트를 잘 작성하는것이 좋을지 프롬프트 엔지니어링 기법이 연구되고 있음. 물론 특정 분야에서는 여전히 fine-tunning 이 필요하겠지만 프롬프트 작성 기법도 활발히 발전하고 있음.

Emgergent ability

1) 정의 : 모델의 emergent abilities는 작은 규모의 모델에는 존재하지 않지만 큰 규모의 모델에는 존재하는 능력(계산량,모델 파라미터의 수, 그리고 학습 데이터셋의 크기가 많이 커지는 순간)

2)모델 별 emergent ability 임계치(모델 스케일)

3)특정 프롬프팅 기법 활용 시에도 모델 스케일이 커지면 갑자기 특정 능력이 발현됨

Temperature (온도)

1) 다음 토큰 예측 방법 : Softmax Regression

언어 모델링(Language Modelling)에서 다음 토큰의 예측은 단어 집합(Vocabulary)에 존재하는 단어들에 대한 Softmax Regression값임.

✔ Softmax Regression을 사용해 다음 단어의 확률을 계산하고, 가장 높은 확률의 단어를 선택
✔ Temperature 값이 낮으면 확실한 단어 선택, 높으면 랜덤성이 증가
✔ T가 낮으면 예측이 보수적이고 정확한 답을 요구하는 작업에 적합 (예: 번역, 코드 자동 완성)
✔ T가 높으면 창의적인 결과를 생성할 수 있음 (예: 스토리 생성, 시 창작 등)