Sky-T1 Post Review

신정열·2025년 1월 26일

LLM ML

출퇴근 논문 읽기

목록 보기

4/9

Sky-T1: Train your own O1 preview model within $450

Post: https://novasky-ai.github.io/posts/sky-t1/
Github: https://github.com/NovaSky-AI/SkyThought

Introduction

Background

O1, Gemini 2.0와 같이 reasoning 성능이 뛰어난 모델들이 나오고 있다.
하지만 이러한 모델들은 기술적 세부 사항과 weight가 공개되지 않음 -> 재구현이 어려움
Reasonging 학습 방법론, data, model weights를 모두 공유함으로써 학계와 오픈소스 커뮤니티에 기여함을 목표로함

Method

Data Generation

QwQ-32B-Preview
=> generate training data
Data mixture
=> cover diverse domains
Reject sampling
- 수학문제의 경우: 정답과 매칭되는지 확인
- 코딩문제의 경우: 단위 테스트로 확인
  => improve data quality
rewrite answer with GPT-4o-mini
- QwQ model로 생성한 답변을 GPT model로 구조화된 형태로 재생성
  => 답변 파싱에 용이하도록 함

최종 데이터

5k conding dataset (APPs, TACO)

10k math dataset (AIME, MATH, Olympiads subsets of the NuminalMath)

1k science & puzzle dataset (STILL-2)

Training

fine-tuning Qwen2.5-32B-Instruct
3 epochs
1e-5 learning rate
96 batch size
DeepSpeed Zero-3 offload
Llama-Factory

Evaluation

Findings

Model size matters

32B보다 작은 모델은 학습시 성능 개선이 미미한 수준임
작은 모델은 답변 생성시 반복되는 경향이 있어 성능 개선이 미미하다고 예상

Data mixture matters

coding dataset 학습시 math 분야 성능이 감소하는 문제 발생
코딩문제는 추가 논리적 단계가 요구되지만 수학문제는 더 직관적이고 구조화된 방식임 -> 이러한 차이로 인해 성능 감소 문제 발생
이를 해결하기 위해 더 높은 난이도의 데이터를 추가 학습하여 성능 감소 문제 해결

Impact

Reasoning 개선할려면 32B 이상의 모델이 필요한듯

특정 task를 학습하면 다른 task의 성능이 하락하는 문제 발생
=> 이를 해결하기 위해선 더 다양한 난이도의 많은 학습 데이터셋을 구성해야함

해당 포스트에서는 학습 기술이 크게 안중요한듯

데이터 생성부터 평가까지 모든 코드가 정리되어 있어서 재구현하기 좋은듯

신정열

아이스 바닐라 라떼 좋아하는 ML Engineer 입니다.

이전 포스트

CoT-decoding paper review

다음 포스트

Sky-T1 Post Review

출퇴근 논문 읽기

Sky-T1: Train your own O1 preview model within $450

Introduction

Background

Method

Data Generation

Training

Evaluation

Findings

Model size matters

Data mixture matters

Impact

CoT-decoding paper review

DeepSeek-R1 Paper Review

0개의 댓글