task specific한 질문들 중에서, 어떤 질문들에 annotate하는게 제일 모델에게 도움이 될지 결정하는 방법

disagreement : h는 unique한 아이템 개수, k는 답변 수

entropy : 모델 Pθ가 각 질문 qi에 대해 각 가능한 답변 aj의 확률을 예측하며, 그 불확실성을 로그 함수 ln을 통해 가중 합산하여 계산

variance : 수학 문제에서는 각 답변의 분산을 계산함.

간단한 산술 문제(초등학생 수준), 일반 상식, 전략적 추론, 비유&유사성 활용, 영어 문자와 관련하여 특정 패턴이나 구조를 이해하는지에 대한 데이터셋으로 실험해본 결과, baseline은 물론이고 일반 CoT보다 나은 성능을 보임.여기서 Active-Prompt(D)는 disagreement, E는 entropy를 사용한 것을 의미함.

실험에서는 랜덤으로 문제를 골라 같은 갯수의 답변을 뽑는 것보다 논문에서 제시한 불확실성 Metric으로 문제를 뽑는 것이 더 효과적인 것을 보임.
또한, 실험에서는 불확실성을 계산할 답변을 생성하는 과정에서 CoT 예시를 주었는데, Think step by step 정도의 CoT 프롬프트를 주어도 효과적임.
Active-Prompt-Anno(A)와 (B)는 서로 다른 human anotator 해설들을 사용했는데, 결과가 다르게 나옴. Active-Prompting을 할 때 해설할 문제를 고르는 것도 중요하지만, 해설도 중요하다는 것을 보여줌.

k개의 답변을 생성하여 불확실성 U를 계산하는데, k개의 개수가 올라갈 수록 성능이 올라감. -> 더 의미있는 문제들을 뽑음.

비교적 약한 모델에서도 Active prompt가 효과적이라는 것을 알 수 있음.

강한 모델로 질문을 고르고, 약한 모델로 inference하면 약한 모델의 성능이 올라감! 근데 gpt-3.5-turbo랑 gpt-3.5-turbo-> gpt-3.5-turbo의 차이는 뭐지?

그동안 나온 CoT는 복잡한 task에는 잘 적용했지만 다양한 task에 적용할 수 없다는 문제가 있었다. 이거는 다양한 task에 쉽게 적용할 수 있다는 장점을 지님.