[Daily report] 24-08-06

kiteday·2024년 8월 6일

목록 보기

51/60

POA: Pre-training Once for Models of All Sizes
foundation model을 사용할 때 고려해야할 점 중 하나는 크기이다. 이미지 생성을 해본 사람은 알겠지만 여러 모델을 섞다보면 tensor가 맞지 않아서 오류가 생기는 경우가 있다. 그런 문제를 해결할 수 있는 모델로 하나의 pre-trained model이 모든 사이즈를 커버할 수 있다고 말한다. self-ditilation 방식으로 큰 foundation model 학습 시, 다른 조금 작은 foundation model을 같이 학습하는 방식이다. 이렇게 하면 확실히 나중에 모든 크기를 커버할 수 있겠다 싶다. 제대로 distillation이 학습 되는지는 또 다른 문제지만,,, 방식 자체는 합리적이다. 알리바바 계열사인 Ant Group에서 낸 페이퍼.
Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models
ICML 2024 paper들도 하나 둘 씩 보이는데 이것도 그렇다. 보드게임(논문에서는 체스와 오셀로)을 LLM으로 한 것. 재밌다. 핵심은 Sparse Autoencoders (SAEs) 구조를 가지고 어떻게 training 시켰는가 인 것 같다. SAEs는 2023년도 paper에서 등장한 개념인 듯 한데 그냥 AE와 어떻게 다른지 조금 더 살펴봐야겠다.

Daily report