LM to LLM? NLP?

진정·2025년 9월 9일

NLP Basic → NLP Advanced → LM to LLM: 학습 정리 🚀

최근에 NLP Basic, NLP Advanced, 그리고 LM to LLM 강의를 들으며 자연어 처리(NLP)의 발전 과정을 체계적으로 정리할 수 있었습니다.
이번 글에서는 기본적인 NLP 개념부터 최신 대규모 언어모델(LLM)에 이르기까지의 흐름을 정리해보겠습니다.

1. NLP Basic ✍️

자연어 처리(NLP)의 기초 강의에서는 텍스트 데이터를 다루는 기본 원리를 배웠습니다.

핵심 개념

텍스트 전처리
- 토큰화(Tokenization): 문장을 단어/서브워드 단위로 분리
- 정규화(Normalization): 대소문자 변환, 불필요한 기호 제거
- 불용어(Stopwords) 제거
대표적인 표현 기법
- Bag of Words (BoW): 단어 등장 빈도를 기반으로 한 단순 표현
- TF-IDF: 단순 빈도에서 벗어나 단어의 “중요도” 반영
- Word2Vec / GloVe: 단어를 벡터 공간에 매핑하여 의미적 유사도를 학습
기본 과제들
- 감성 분석(Sentiment Analysis)
- 문서 분류(Document Classification)
- 토픽 모델링(Topic Modeling, e.g. LDA)

👉 이 시기 NLP의 핵심은 “텍스트를 수치화하여 모델이 처리할 수 있게 만드는 것”이었습니다.

2. NLP Advanced 🔬

고급 과정에서는 딥러닝 기반 NLP가 본격적으로 등장합니다.

주요 학습 내용

RNN, LSTM, GRU
- 순차적 데이터를 처리하는 신경망
- 단기 기억(Short-term memory) 한계를 보완한 LSTM/GRU
Attention 메커니즘
- RNN의 한계를 극복하기 위해 등장
- 입력 시퀀스 전체를 참조해 중요한 단어에 더 큰 가중치를 부여
Transformer 구조
- “Attention is All You Need” (2017) 논문으로 소개
- RNN 없이도 병렬 처리 가능
- Encoder-Decoder 구조 기반으로 기계 번역, 요약 등 다양한 작업에 활용
사전학습 언어모델(PLM, Pre-trained LM)
- BERT: 양방향 Encoder 기반, 문장 이해에 강점
- GPT: Decoder 기반, 문장 생성에 강점
- RoBERTa, DistilBERT 등 파생 모델들

👉 이 단계에서 NLP는 기존의 통계 기반 기법을 넘어, 신경망 기반으로 의미를 더 정밀하게 이해하고 생성할 수 있게 발전했습니다.

3. LM to LLM 🌐

마지막 강의는 언어모델(LM)이 어떻게 대규모 언어모델(LLM)로 발전했는지를 다뤘습니다.

LM (Language Model)

특정 문장에서 다음 단어를 예측하는 모델
N-gram, RNN, LSTM 기반으로 발전
규모가 작고, 특정 작업(Task-specific)에 맞춤

LLM (Large Language Model)

수십억~수천억 개의 파라미터를 가진 초대형 모델
방대한 코퍼스를 학습해 범용적 언어 이해와 생성 가능
예: GPT 시리즈, BERT 대형 모델, LLaMA 등

특징

Zero-shot / Few-shot Learning 가능
Prompt Engineering을 통해 원하는 출력을 유도
다양한 다운스트림 작업(요약, 질의응답, 번역, 코드 생성 등)에 적용 가능

시사점

데이터와 모델 크기가 성능을 좌우하는 시대 → “Scaling Law”
효율적 학습을 위한 LoRA, QLoRA, 지식 증류(Knowledge Distillation) 기법 필요
앞으로는 작고 효율적인 LLM 또는 도메인 특화 모델이 중요해질 것

4. 전체 흐름 요약

구분	시대	주요 특징	대표 기술
NLP Basic	통계 기반	단순 수치화, 단어 중요도	BoW, TF-IDF, Word2Vec
NLP Advanced	딥러닝 기반	문맥 이해, Attention 도입	RNN, LSTM, Transformer, BERT, GPT
LM → LLM	초대형 모델	범용성, 생성 능력, 프롬프트 활용	GPT 시리즈, LLaMA, PaLM 등