raw text를 활용한 unsupervised pretraining. -> general한 목적을 가진 representation을 학습하기 위해. 즉, 우리의 자연어를 어느 상황에서나 잘 표현되는 벡터로 표현하기 위한 학습이라 볼 수 있다.large scale의 instruction tuning 또는 RL(reinforcement learning). -> 주어진 end task에 더 잘 align 될 수 있도록, 그리고 user preference에 맞도록 fine tuning하는 것이다.그렇다면 이러한 데이터는 어디서 구했을까? 다양성을 위해 그리고 퀄리티를 위해, Stack Exchange나 wikiHow와 같은 곳에서 데이터를 샘플링했다. 이렇게 750개를 모았다.
그렇다면 나머지 250개는? 직접 작성했다.
이렇게 데이터를 모으면서 중요한 점이 있다. 다양성은 유지하면서, 스타일과 포맷을 모델이 학습할 수 있는 일관성이 있는 데이터를 모아야 하는 것이다.

또한 ablation study는 데이터 품질의 상승 없이(다양성에 대한 상승 없이) 단순히 양만 증가시키는 것은 성능을 떨어뜨리는 것을 보여준다.
Stack Exchange와 wikiHow의 데이터는 컨셉과 적절해서 자동 샘플링으로 수집했다.Reddit에서 수집한 데이터는 유머적인 답변도 있고, 적절하지 않은 답변이 있어서 수동으로 샘플링했다.