언젠가는 간단하게라도 읽어야지라고 했던 논문들을 설을 맞아 간단하게라도 정리해본다.
paper link: https://arxiv.org/pdf/2308.10149.pdf
LLM은 기본적으로 대규모 학습 데이터를 통해 학습을 하는 통계기반의 모델이기 때문에, 대규모 학습 데이터가 어떻게 구성되어 있느냐에 따라 편향성을 나타낼 수 있다. 따라서 만약, 사전학습 모델이 이미 편향성을 가진 모델이라면, downstream task를 위해 Fine tuning한 모델도 편향성을 나타낼 수 있는 것이다.
그리고 이러한 것들은 LLM을 사용하는데 있어서 좋지 않은 잠재성을 가지게 된다. 본 논문에서는 fairness LLM에 관련된 연구들을 보여주고, 평가는 어떻게 하는지, 또 debiasing method는 무엇이 있는지 소개한다.
기본적으로 본 논문에서 설명하는 bias는 2가지가 있는 것으로 보인다.
그렇다면 각각의 bias는 어떤 개념을 내포하는 것일까?
위 그림에서 파악할 수 있듯이,
intrinsic bias
는 사전학습 모델에서 나타날 수 있는 bias이다. 사전학습을 할 때에는 BERT 계열의 Encoder계열 모델은 결국 핵심 목표는 특정 토근을 잘 임베딩하여 vector represantation을 잘 나타내는 것이다. 주변 문맥을 잘 파악하여 토큰의 임베딩이 되어야 하는 것이고, 만약 사전학습 데이터의 품질이 안 좋거나, 편향되어 있다면, 이러한 임베딩 또한 편향된다는 의미이다.
extrinsic bias
는 사전학습 모델을 바탕으로 최종적으로 우리가 하고자 하는 downstream task에서 prediction과 같은 것들을 할 때 잘못된, 편향적인 prediction을 하는 것이다.
여기서 생각해야 할 것은 우리는 그렇다면 사전학습을 진행을 할 때, 기본적으로 편향되지 않은 사전학습 모델을 만들고자 노력해야 한다. 그렇다면 편향되지 않은 사전학습 모델을 만들고자 한다면, 현재 우리가 통상적으로 구축하는 사전학습 모델은 통계 기반의 모델이기 때문에, 편향되지 않은 데이터를 구축하는 것이 핵심이다. 또한 사전학습 모델을 구축을 했다면, 이러한 모델을 어떻게 잘 evaluation할 수 있을지에 대한 고민을 해봐야 한다.
downstream task를 위한 모델 학습을 할 때도 마찬가지이다.
본 논문에서는 그러한 evaluation 평가 방법과 debiasing method를 설명할 것이다.
자세한 것은 직접 이러한 모델을 만들 때 참고를 하면 좋을 것이다.
그리고 이러한 것들을 어떠한 방법론으로 할지에 대한 본 논문의 연구 구조도이다.
일단 나는 주로 pretraining보다는 sft를 하기 때문에, extrinsic debiasing에 대해서 먼저 알아봐야 할 것 같다.
Data-centric Debiasing
Model-centric Debiasing
Data Augmentation
Data Calibration
공장노동자는 오늘도 일을 한다. 그는 아침을 먹고 일과를 시작한다.