raw text를 활용한 unsupervised pretraining.
-> general한 목적을 가진 representation을 학습하기 위해. 즉, 우리의 자연어를 어느 상황에서나 잘 표현되는 벡터로 표현하기 위한 학습이라 볼 수 있다.large scale의 instruction tuning 또는 RL(reinforcement learning).
-> 주어진 end task에 더 잘 align 될 수 있도록, 그리고 user preference에 맞도록 fine tuning하는 것이다.그렇다면 이러한 데이터는 어디서 구했을까? 다양성을 위해 그리고 퀄리티를 위해, Stack Exchange
나 wikiHow
와 같은 곳에서 데이터를 샘플링했다. 이렇게 750개를 모았다.
그렇다면 나머지 250개는? 직접 작성했다.
이렇게 데이터를 모으면서 중요한 점이 있다. 다양성은 유지하면서, 스타일과 포맷을 모델이 학습할 수 있는 일관성이 있는 데이터를 모아야 하는 것이다.
또한 ablation study는 데이터 품질의 상승 없이(다양성에 대한 상승 없이) 단순히 양만 증가시키는 것은 성능을 떨어뜨리는 것을 보여준다.
Stack Exchange
와 wikiHow
의 데이터는 컨셉과 적절해서 자동 샘플링으로 수집했다.Reddit
에서 수집한 데이터는 유머적인 답변도 있고, 적절하지 않은 답변이 있어서 수동으로 샘플링했다.