
"보상을 받는 행위 자체"에 최적화했을 뿐, 실제 문제를 제대로 해결하지는 않은 상황
1) Exit(0) 방식
프로그램을 중간에 강제 종료시켜 테스트 무력화
2) Rasie Skip Test
예외처리를 발생시켜 테스트를 건너 뛰는 방식
Chain-of-Thought
모델이 결론에 바로 도달하지 않고, 중간 단계를 하나씩 논리적으로 풀어가며 최종 답변을 도출하는 방식
단계적으로 생각하고 해결하는 방식
Bowen Baker, Joost Huizinga, Leo Gao, Zehao Dou, Melody Y. Guan, Aleksander Madry, Wojciech Zaremba, Jakub Pachocki, David Farhi. Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation, 2025 URL https://arxiv.org/abs/2503.11926