
transformers는 in-context learning을 잘 수행한다.
이는 gradient update 없이 모델이 새로운 concept의 몇가지 examples를 빠르게 일반화하는 능력이다. in-context learning은 output이 몇가지 예시에 따라 conditioned 되고, gradient update 없는 few-shot learning의 특수한 경우이다.
in-weight learning은 이와 반대 개념임. → 지도학습, 느리고, gradient update를 함.
‘meta-learning’ 연구 분야에서 뉴럴넷이 weight update 없이 few shot learning이 가능함을 보여주었음
이를 위해 meta-learning 이라고 불리는 프로세스인 in-context learning에 맞는 훈련 체계를 명시적으로 설계했다.
transformers 모델은 in-context learning의 방식을 생각하고 디자인 되지 않았음에도 in-context learning 능력이 부각된다.
어떻게 이 능력을 가질까? → recurrent models 이 transformers model로 대체됨에 따라서 이 능력이 생김. in-context learning 은 훈련 데이터 분포의 qualities에 따라서 그 능력이 결정된다는 가설을 탐구함.
이 논문에서는 훈련 데이터의 분포 특성을 실험적으로 조작하고, in-context few shot learning에 미치는 영향을 측정했다.
transformer 모델이 data that includes both burstiness and a large enough set of rarely occurring classes 로 학습했을때만 in-context learning이 나타났다. 또한 natural data에서 관찰되는 dynamic item 해석의 두 가지 instance, 즉 item 당 label 이 많은 경우와, class 내 variation이 있는 경우를 테스트했고 그 결과, 학습 데이터에 대한 두 가지 개입 모두 모델이 in-context learning 에 더 강하게 편향될 수 있음을 발겸함.
우리가 테스트한 모델은 일반적으로 빠른 in-context learning과 느린 gradient 기반 update를 통해 저장된 정보('in-weight learning')에 의존하는 것 사이에서 상충되는 모습을 보임. 그러나 클래스에 대한 skewed marginal distribution(자연 데이터의 집피안 분포와 유사)으로 학습할 경우 모델이 in-context learning과 in-weight learning을 동시에 나타낼 수 있다는 사실을 발견함.
동시에 아키텍처도 중요하다. 트랜스포머와 달리, (매개변수 수에 따라 매칭되는) LSTM 및 RNN과 같은 recurrent 모델은 동일한 데이터 분포로 학습할 때 in-context learning이 안된다. 그러나 잘못된 데이터 분포로 훈련된 트랜스포머 모델또한 in-context learning을 보여주지 못했다는 점에 유의해야 함. 따라서 아키텍처와 데이터는 모두 in-context learning을 구현하는 데 있어 핵심.
in-context few-shot learning 이 가능하게 하는 원인을 찾기 위해 Omniglot dataset를 사용하여 standard image-label dataset 을 만들었다. → various international alphabets의 1623 different character class 로 구성되어 있고 각 class에는 20개의 필기 예시가 포함되어 있음.
The few-shot challenge는 훈련에서 본 적이 없는 character class의 예를 해당 클래스의 몇 가지 예와 몇 가지 대체 클래스만을 기반으로 분류하는 것이다.
(1) in-context learning 과 (2) in-weights learning 를 평가하기 위해 두 가지 유형의 시퀀스에 대해서 평가함. evaluation seq 도 train seq와 같이 각 시퀀스의 처음 16개의 element는 ‘context’를 구성하고, 8개의 image-label 쌍으로 구성되었음.마지막 element는 '쿼리' 이미지로 사용
in-context few-shot learning의 능력을 평가하기 위해 standard few-shot setup 사용. context는 각각 4개의 예시가 포함된 2개의 서로다른 이미지 클래스를 랜덤하게 구성하였고, 쿼리는 랜덤하게 두개의 이미지 중 하나를 선택했음.
모델은 항상 가능한 모든 출력 레이블에 대해 full multi-class classification 를 수행해야 하지만(학습에서와 같이) few-shot 정확도는 few-shot 시퀀스에 표시된 두 개의 레이블에 대해서만 모델 출력을 고려하여 계산된다. (0, 1) 확률은 1/2. 이는 예를 들어 컨텍스트에서 레이블 중 하나를 무작위로 선택하여 우연 이상의 성능이 발생하지 않도록 보장한다. 또한 모델은 새로운 이미지 클래스에 대한 in-context learning 을 위해 평가되었지만 새로운 레이블은 평가되지 않았음. (appendix 참조)
모델에서 훈련된 클래스의 in-weight 학습을 평가하기 위해 평가 시퀀스는 훈련에 사용된 것과 동일한 레이블을 사용하여, 교체 없이 uniformly하게 선택된 이미지 클래스로 구성.(그림 1d) 이미지 클래스는 각 시퀀스 내에서 unique 했기 때문에 쿼리는 컨텍스트에서 support 되지 않았음. 따라서 모델이 라벨을 정확하게 예측하는 유일한 방법은 모델 가중치에 저장된 정보에 의존하는 것임. 이 문제의 경우 올바른 쿼리 라벨은 훈련에서 표시된 라벨 중 하나일 수 있으며 확률은 일반적으로 1/1600입니다.



another source of dynamic variation of meaning인 image class의 variation에 대한 탐구.
in the lowest- variation condition에선 각 이미지 클래스는 단일 이미지로만 구성. → 특정 클래스의 이미지는 항상 동일.
in the medium-variation conditions에선 이미지에 가우스 픽셀 노이즈 추가.
In the high- varation condition에선 전체 Omniglot class사용. 각 class에서 20명의 사람들이 그린 20개의 서로다른 이미지로 구성
결과를 보면
위의 실험들에서 우리는 훈련 클래스(홀드아웃 클래스가 아닌)에 대한 in-context learning 도 평가했으며, 다시 클래스를 레이블 0과 1에 무작위로 할당했음(훈련에서 본 클래스를 사용하는 대신). 평가는 모든 경우에 유사하게 보였으며 성능은 약간 더 높았음
지금까지는 in-context learning과 in-weigth learning의 tradeoff 를 봤는데, evaluation에 나타날 데이터와 holdout에서만 나타나는 새로운 클래스에 대해 둘다 잘 할 수 없을까?
데이터가 위 실험에서 marginal 분포는 전체 클래스에서 uniform이었음. 즉, 각 클래스가 데이터 세트 전체에 걸쳐 하게 나타날 가능성이 높았음. → bursty, unbursty 였지만 그럼에서 전체로 생각하면 uniform 이었음.
marginally-skewed distributions 에 대해 훈련하여 두가지 유형의 학습을 달성 할 수 있다고 생각했음. 이 case에서는 대부분의 단어가 드물게 나타남. → Zipfian 분포, α : zipf exponent에 따라 degree of skew 가 달라짐.
아래 그림 a와 b를 보자.
이 분포로 학습하게 되면 common class에 대해서 in-weight traning을 할 수 있는 동시에, rare class에 대해 꼬리가 긴 분포 이므로, in-context learning 을 잘 할 수 있게 된다.
training with 12800 classes and p(bursty) = 0.9.
