무조건 큰 모델이 좋은가?
- Scaling Laws
- 모델 사이즈가 커질 수록 작은 모델에 비해 동일 성능에 대하여 더 적은 데이터로 도달한다.
- 모델 사이즈가 커질수록 더 높은 성능을 달성하기 위해서는 더 많은 데이터가 필요하다.
- 모델 크기에 따라 Computing Budget에 맞는 적절한 데이터 양을 찾는 것이 Scaling Law이다.
- 모델 크기에 적절한 데이터양이 어떤 것이냐! 이것이 바로 Scaling Laws
- 큰 모델일 수록 동일 성능에 도달하기에 더 큰 데이터가 필요하지만 고점은 더 높다.
| 방법 | 정제 전 | 정제 후 |
|---|---|---|
| 중복 제거 (문장 수준, 문서 수준) | 우리는 다양한 서비스를 제공합니다. 우리의 서비스에는 웹 디자인, SEO, 그리고 소셜 미디어 관리가 포함됩니다. 우리의 서비스에는 웹 디자인, SEO, 그리고 소셜 미디어 관리가 포함됩니다. | 우리는 다양한 서비스를 제공합니다. 우리의 서비스에는 웹 디자인, SEO, 그리고 소셜 미디어 관리가 포함됩니다. |
| 품질 필터 (언어, 키워드, 통계) | 이 문서는 중요한 정보를 포함하고 있습니다. この文書には重要な情報が含まれています。 이 문서에는 중요한 정보가 포함되어 있습니다. | 이 문서는 중요한 정보를 포함하고 있습니다. |
| 콘텐츠 필터 (유해성, 편향성) | 나는 이 아이디어가 얼마나 멍청한지 믿을 수 없다. 이런 생각을 하는 사람은 바보일 것이다. | 나는 이 아이디어에 대해 우려가 있다. 다른 옵션을 탐색하는 것이 좋을 수 있다. |
| 개인정보 보호 (개인 식별 정보) | John Doe의 전화번호는 123-456-7890이며, 그는 Springfield의 1234 Elm Street에 살고 있습니다. | [이름]의 전화번호는 비공개 처리되었으며, 그는 [비공개 주소]에 살고 있습니다. |
| 규칙 기반 정제 (오타 수정 등) | 이것은 예시 텍스트입니다! 몇 가지 오타와 불필요한 구두점 및 공백이 포함되어 있습니다 . | 이것은 예시 텍스트입니다. 몇 가지 오타와 불필요한 구두점 및 공백이 수정되었습니다. |
위 표는 자연어 처리(NLP)에서 데이터 정제 작업의 전후를 비교한 것으로, 중복 제거, 품질 필터링, 콘텐츠 필터링, 개인정보 보호, 규칙 기반 정제와 같은 방법들이 적용되었으며, 이러한 과정은 텍스트 데이터의 품질을 향상시키기 위해 필수적이다.
| 특징 | Encoder | Decoder |
|---|---|---|
| 학습 방향 | 양방향 | 자가 회귀 |
| 학습 방식 | Masked Language Model (MLM) | Next Token Prediction (NTP) |
| 사용 사례 | 데이터 이해 작업 | 텍스트 생성 작업 |
| 대표 모델 | BERT | GPT |
Encoder는 주로 문장 이해, Decoder는 텍스트 생성에 강점 있음.
그럼 데이터셋은 어디서 얻나요?
- 대개 뉴스, 블로그 등 웹사이트에서 얻은 후에
- 데이터 전처리 정제 과정을 통해 데이터셋으로 저장하고
- 초기 weight를 가지고 있는 모델에 입력으로 넣어 다음에 나올 토큰을 맞추도록 학습한다.
- 그런데 이렇게 학습하다보면 깊은 도메인에 대해 최신 정보를 답할 수 없으며, 할루시네이션이 발생하게 됨 단순히 다음에 올 가장 높은 확률의 토큰을 예측하게 되므로...
Pre-Training과 비슷하다.
다만, 특정 Task 수행을 위한 능력을 학습하게 됨.
다양한 NLP 태스크에 대해 Fine Tuning을 진행할 때 원하는 Label이 따로 있기 때문에, Supervised Fine Tuning(SFT) 이라고도 함
Self-Instruct, Stanford Alpaca 이후로 최근의 SFT 데이터들은 대체로 instruction template(instruction-input-output) 형태로 구성
Fine-tuning은 보통 In-Context Learning에 비해 Task 수행 능력이 좋다는 것이 입증 됨.
Domain 지식의 깊이, 일의 난이도 복잡성 등을 고려하여 Fine-tuning 필요성을 고려하여야 함.
다만... Fine-tuning을 한다고 하더라도 사용자의 의도에 맞는 답변인지는 여전히 의문이다.
휴먼 피드백을 넣어서 추가적인 Tuning을 진행하는 것
Pretrain + SFT + RLHF 이 삼박자가 이루어져야 비로소 원하는 성능이 나올 수 있다.
ORPO: SFT + DPO 한번에 진행