Obfuscated Reward Hacking

Kim Seul·2025년 4월 4일

단어사전

목록 보기

2/3

Obfuscated Reward Hacking(보상 해킹 은폐)

"보상을 받는 행위 자체"에 최적화했을 뿐, 실제 문제를 제대로 해결하지는 않은 상황
1) Exit(0) 방식
프로그램을 중간에 강제 종료시켜 테스트 무력화
2) Rasie Skip Test
예외처리를 발생시켜 테스트를 건너 뛰는 방식

Chain-of-Thought
모델이 결론에 바로 도달하지 않고, 중간 단계를 하나씩 논리적으로 풀어가며 최종 답변을 도출하는 방식
단계적으로 생각하고 해결하는 방식

Bowen Baker, Joost Huizinga, Leo Gao, Zehao Dou, Melody Y. Guan, Aleksander Madry, Wojciech Zaremba, Jakub Pachocki, David Farhi. Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation, 2025 URL https://arxiv.org/abs/2503.11926

https://www.youtube.com/watch?v=Tqc5cEGStvg

Kim Seul

이전 포스트

MCP

다음 포스트

Obfuscated Reward Hacking

단어사전

Obfuscated Reward Hacking(보상 해킹 은폐)

MCP

LangChain

0개의 댓글