POA: Pre-training Once for Models of All Sizes
foundation model을 사용할 때 고려해야할 점 중 하나는 크기이다. 이미지 생성을 해본 사람은 알겠지만 여러 모델을 섞다보면 tensor가 맞지 않아서 오류가 생기는 경우가 있다. 그런 문제를 해결할 수 있는 모델로 하나의 pre-trained model이 모든 사이즈를 커버할 수 있다고 말한다. self-ditilation 방식으로 큰 foundation model 학습 시, 다른 조금 작은 foundation model을 같이 학습하는 방식이다. 이렇게 하면 확실히 나중에 모든 크기를 커버할 수 있겠다 싶다. 제대로 distillation이 학습 되는지는 또 다른 문제지만,,, 방식 자체는 합리적이다. 알리바바 계열사인 Ant Group에서 낸 페이퍼.