
SpecEdge(스펙엣지)에 대해 알아보려 한다.참고 논문:
- Park, J., Cho, S., & Han, D. (2025). SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs
SpecEdge는
- 외부 서버 GPU 뿐만 아니라,
사용자 개인의 GPU(Edge GPU)도 같이 사용하여 비용을 낮추는 기술
speculative decoding는 생성(generation)에 사용하는 방법으로, 추측적 디코딩이라고 하며 아래 세 단계로 구성된다.
생성 task는 연산량이 크기 때문에 사용
⭐ Speculative Decoding
1️⃣
Drafting Candidates
- 작은 모델(Draft Model
ex) sLLM)이 생성한 결과. 즉, 서버가 아닌 사용자 개인 GPU와 sLLM을 사용하여 토큰 생성(=초안)- 단,
어휘 체계가 동일한 모델을 사용
- ex) 메인 모델(server 용) : Llama-3.1-70B / 서브 모델(Edge 용) : Llama-3.1-1B
2️⃣
Verification
- 메인 모델이 서브 모델의 생성 결과를 채점하는 것과 같고 이 과정에서
병렬 연산(Parallel Processing)을 사용- 만약 10개 토큰을 생성하면 메인 모델을 10번 사용해야 하지만, 미리 생성한 초안을 입력하면 한 번의 연산으로 검증이 가능하다.
-> 연산 효율성 및 비용 감소3️⃣
reconciliation
- 검증 결과를 통해 틀린 예측을 수정하는데, 처음 틀린 시점 이후의 단어는 올바르게 예측했어도 수정
- 10개 단어 중, 1~4번 정답, 5번 : 틀림, 6~10번 정답일 때 5번만 수정하는 게 아니라
해당 시점 단어 이후의 예측 결과가 맞았더라고 전부 수정(즉, 6~10번 단어가 맞았더라도 전부 수정)- 💡 메인 모델(server)가 오답을 수정하면, 엣지 모델은 정답으로 바꾸고
KV 캐시 다시 계산
잠재적 지연시간 증가(Potential latency Increase)과도한 서비 미사용(Risk of server underutilization)💡 Proactive Drafting
Proactive Drafting을 사용하여 초안 생성 / 검증과정의 지연 시간 발생 문제를 해결하며, 아래 피규어는 proactive drafting의 과정을 시각화한다.
![]()
- 두 번째 단계에서
Expansion Head는 초기 초안의 다음 초안 시작 단어를 의미하는데,- 세 번째 단계에서 이
Expansion Head도 검증이 끝난 토큰으로 처리되어 있는 것을 볼 수 있다.
- 이는
첫 번째 초안 + 1 시점의 단어로 이는 server 모델이 정보 제공의 목적으로 엣지 모델에게 두 번째 초안의 시작점을 알려주는 정보 제공의 역할을 한다.

초안 생성(Draft) 과정이 차지하는 비율을 보이며, 이를 Server모델이 아닌 Edge 모델이 수행함에 따라 시스템 효율성이 커지는 결과를 방증한다.
bubbles가 발생🔦
bubbles란?
- 컴퓨터 아키텍쳐 또는 파이프라인에서 사용하는 용어로,
- 아무런 일을 하지 않아 빈 공간을 칭하는 단어이며
idle time이라고 하기도 함
interleaving 방법을 사용하여, 여러 디바이스에서 초안이 완성되고 검증을 요청할 때마다 바로 검증을 진행하며, 동시에 여러 검증도 수행스케줄을 촘촘히 채우고 GPU 연산 능력 극대화연속 배치(Continuous Batching) 및 연산 최적화 custom attention masking 사용KV 캐시 패딩사용1.91배, 서버 처리량(server throughput)은 2.22배향상됨을 보였으며,11.24% 감소한 결과를 보임SpecEdge가 가장 효율적임을 보인다.