ART 프레임워크는 복잡한 추론과 외부 도구 사용을 자동화하여 대규모 언어 모델(LLMs)의 성능을 향상시키는 방법을 제시합니다. 이 연구는 문제를 다단계로 분해하고, 적절한 도구를 동적으로 호출하는 과정을 통해, LLMs가 기존 접근법으로는 해결하기 어려운 과제를 수행할 수 있도록 합니다. 실험 결과, ART는 다양한 벤치마크에서 주목할 만한 성능 향상을 보여주며, 특히 인간의 직접적인 피드백을 통한 개선 가능성을 확인했습니다. 이러한 결과는 LLMs의 추론 능력을 확장하고, 복잡한 작업에 대한 접근 방식을 재고하는 데 기여할 것입니다.

다음과 같이 Task Libaray에서 fewshot 샘플을 선택하고, LLM이 fewshot 샘플을 보고 자동으로 문제를 풀기위해 Tools를 사용하는 식으로 구성됨
LLM은 few-shot, zero-shot으로 복잡한 추론이 가능하며 , CoT 혹은 외부 Tools을 사용하여 모델의 성능을 더 향상 시킬 수 있음
그러나 이제 이전 연구는 task 작업 데모와, 모델 생성, tool 사용 등에서 많이 조정해야함
따라서 이제 ART 라는 프레임워크를 제안

task library에서 비슷한 task를 검색해옴

program이라고 명칭

Few-shot에 대해선 14.9% 정도 성능 향상
Code, String 쪽 보면 Tools를 사용하지 않으면 수행이 잘 안됨.. 그 이휴는 코드 생성 오류가 연쇄적으로 오류가 되기때문에 따라서 w/o Tools use 보다 굉장히 성능이 높아지는 걸 알 수 있음
그러나 보면 GPT-3보다는 항상 좋은건 아닌듯...