Prompt based fine tuning 결과에서 layer pruning 했을 경우 성능 비교
전반적으로 Layer Pruning 결과 성능 저하가 없음
오히려 앞에서 1~2개 Layer만 사용하는 것이 최고 성능을 기록함
GPT2-XL 에서는 15억개 파라미터, OPT에서는 11억 4천만개 파라미터 절감
P-CLS Training
Prompt based classification head fine tuning 결과에서 layer pruning 했을 경우 성능 비교
LM Training 에서는 분류 문제를 Next Token Prediction으로 해결하였으므로, Layer Pruning 시 일관된 성능이 나오는 이유가 Next Token Prediction 에서 language modeling head(다음 토큰 예측 분포)로 인해서 유지되는 것인지 language modeling head에 대한 의존성 테스트를 위한 실험
Classification Layer를 추가해주는 경우에도 성능 저하로 이어지지 않고, 오히려 성능이 향상됨.
Layer Pruning 이후 성능 유지가 Language Modeling Head에 의존하지 않음을 보임.
CLS Training
Conventional Classification fine tuning 결과에서 layer pruning 했을 경우 성능 비교
Layer Pruning은 성능 감소에 큰 영향을 미치지 않음
Layer Pruning 전후로 일관된 성능 기록
Comparision
3가지 방법의 Layer Pruning 시의 성능 결과의 평균을 비교
해당 3가지 방법들은 유사한 결과를 나타냄
Layer 수가 모델 성능에 거의 영향을 미치지 않는다는 의미
종종 적은 수의 Layer를 가진 모델이 전체 Layer를 가진 모델보다 성능이 좋음
Language Modeling Head, Classification Head, Layer Decreasing 이 모두 모델 성능과 관련이 없음
따라서, 분류 task에서 학습 및 저장 자원을 절약으로 자원 최적화가 가능.
5. Conclusion
Summary
본 논문에서는 LLM의 layer 수가 변해도 분류 작업의 성능 저하가 발생하지 않는다는 것을 확인하였음.
LLM의 parameter를 줄이기 위한 유용한 방법을 보여줌.
Limitation
Classification Task에만 한정하여 실험하였음 -> QA, Summary 등 다양한 NLU Task에 대해서는 실험하지 않음