
LLM을 공부하게 됐다.
(그냥 그렇게 됐다..)

수많은 문장, 문서, 웹사이트 등에서 학습해서 엄청 많은 데이터를 알고 있다는 의미예요.
학습에 사용되는 파라미터(=모델의 뇌세포 같은 것) 수도 수백억~수조 개에 이릅니다.
인간의 언어(자연어), 예를 들어 한국어, 영어, 일본어, 스페인어 같은 걸 다루는 모델이라는 뜻이에요.
입력된 문장을 이해하고, 그에 맞는 출력을 생성하는 일종의 함수입니다.
텍스트를 보고 다음 말을 예측하는 식으로 작동합니다.
LLM은 기본적으로 Transformer라는 구조를 사용합니다.
1) 입력 임베딩 (Embedding Layer)
단어(또는 subword)를 숫자 벡터로 바꾸는 단계.
예: "안녕" → [0.14, -1.2, 0.33, ...] (차원 수는 수천 개일 수 있음)
2) 포지셔널 인코딩 (Positional Encoding)
Transformer는 단어 순서를 몰라요.
그래서 각 단어에 위치 정보를 더해줘요.
예: 문장 내에서 1번째 단어, 2번째 단어인지.
3) Self-Attention 메커니즘
입력의 각 단어가 문맥적으로 얼마나 중요한지를 계산하는 핵심 구조입니다.
예: "그는 사과를 먹었다" → "그"가 누구인지를 파악할 때 필요한 정보들을 선택적으로 강조해줌.
4) 인코더 / 디코더 (LLM은 대부분 디코더만 씀)
GPT 계열 모델들은 디코더 구조만 사용해요.
(번역 등은 인코더+디코더 구조를 쓰지만, 일반 LLM은 디코더 기반입니다.)
5) Feedforward Network & Layer Normalization
어텐션 뒤에 오는 추가 처리층. 비선형 변환을 수행해요.
6) 출력 → 토큰 예측 (Softmax)
모델은 다음 단어를 확률로 예측합니다.
예: "나는 밥을" → 다음 단어로 "먹었다"일 확률이 92%, "좋아한다"가 5%...
인터넷 텍스트, 책, 논문, 코드 등 대규모 데이터로 학습
"다음 단어 맞추기" 또는 "마스크된 단어 채우기"(BERT 계열)
특정 목적에 맞게 추가로 조정
예: 의학 텍스트, 법률 문서에 특화된 모델로 만들기
사람이 모델의 응답을 평가 → 그걸 바탕으로 모델 보정
GPT-4도 이걸 사용함
OpenAI의 경우: ChatGPT는 RLHF 이후 품질이 확 올라감
LLM 모델을 보면 8B, 70B 같은 숫자가 붙어 있어요.
이건 모델이 학습한 파라미터(Parameter) 개수를 뜻해요.
8B (80억 개) → 가벼운 모델, 빠름
308B (3,080억 개) → 엄청 큰 모델, 하지만 느림
파라미터가 많을수록 똑똑하지만, 계산비용도 커지고, 데이터도 더 필요
Ollama, LM 스튜디오, GPT 같은 도구를 이용해서 아래와 같은 기능 만들 수 있음
그래서 내가 할 것은?..💦
