DUS(Depth-Up-Scaling) Mistral 7B 모델을 베이스로 해서 복사해서 2개의 모델 만듬 각 위 8개, 아래 8개 layer 제거하고 합쳐서 48 layer 만듬 그러면 10.7B지만 성능이 떨어져서 다시 pretraing -> instruction