✅ method 1. Argument Generation
Corpus 기반에서 학습된 LM 은 결국 다른 도메인에서도 value distribution 을 담아낼 가능성이 높다.
Touche'23-ValueEVal
✅ Method 2. Question Answering
QA의 경우에는 다음과 같다. value name -> Importance level -> Choice number
importance level 은 value score 1-6으로 분류된 중요도 점수이다.
ViLLaMA-QA (Value-Injected LLaMa via Question Answering)
ViLLaMa 를 훈련시키기 위해 데이터를 준비 / QA 프롬프트 만들고 / 훈련 / 결과 도출 (정해진 틀에 맞춰서)
Task1. PVQ
Task2. Argument Generation
Task3. Behavior Prediction
Task4. Opinion Prediction
: Target Vavlue distribution 측정
✅ Results
질의응답에 의해 훈련되었을 때, 가치와 연관된 질문에 관해 답할 능력을 가짐! 오직 value-loaded text 를 기억하는 것이며, 가치를 내재화하는 것은 아님.
-> 마지막으로 Human Evaluation 과정을 거친다. Premise 를 보고 value-distribution 을 잘 맞힌 premise 를 고른다.
✅ Results
AG가 QA를 뛰어넘을 것이라 예측했으나 비슷했다. QA는 generate arguments 를 가치를 반영해서 만들어내는 능력을 갖춘 것이다. 따라서 이 두가지를 모두 합친 것이 성능이 가장 좋았다.
다른 가치를 가진 사람은 다른 행동을 할 것이라는 전제에서 실험한 것이다. ValueNet 이라는 데이터셋을 사용헸다.
Prompt 를 보자.
Results
ChatGPT 의 경우 LLaMA 는 다른 것보다 성능이 떨어졌는데, ethical guidelines 에 어긋나는 것이라고 답한 것들이 많아서다.
Prompt
Results
injected a value distribution in LM, reflects the corresponding values in its reponses