
jailbreak는 ‘탈옥’을 의미하는 단어로, LLM에게 탈옥을 유도하게 한다. 즉, LLM의 안전 범주를 넘은 응답을 유도하는 방법
LLM이 Violent and Deceitful한 내용의 응답을 하는 문제점 의미
LLM이 위험한 응답을 하지 못하도록 규제를 할텐데 이런 문제가 발생할까? 아래 그림을 살펴보면,
| Anil, Cem, et al.2024
논문의 필자는 MSJ.(Many-shot jailbreaking, 다중 샷 탈옥)의 문제점에 대해 언급한다. 그림의 좌측, FSJ(Few-shot jailbreaking)을 보면 차를 훔치는 방법, 돈을 위조하는 법 등 범죄 또는 불법 행동 방법에 대한 질문과 그에 대한 응답을 제공한 후, 다른 질문을 남긴 후 응답을 받는다. FSJ를 사용하는 경우 LLM은 말해줄 수 없다는 응답을 한다.
하지만, 그림의 우측을 살펴보면 방식은 FSJ와 같지만 개수를 늘려서 프롬프트를 작성한 경우, LLM이 폭탄을 설치하는 방법에 대해 답변을 해주는 결과가 발생한다.
최신 LLM은 점차 입력 토큰의 개수 제한이 늘어나고 이를 악용한 방법이라고 할 수 있다.
위 그림과 같이 shot(Q-A)의 개수가 증가할 수록 유해한 응답을 하는 비율이 급격하게 높아짐을 확인할 수 있다.
MSJ은 핵심은 잠재적 위험성이 있는 질문을 차례로 작성하여 점진적으로 LLM에게 탈옥을 유도하고, 마지막에 최종 질문을 하는 방법을 사용한다.
- LLM이 발전함에 따라 역시 이를 악용하는 사례와 방법이 나오고 있다.
LLM 사용에 대한 규제가 필요하다는 목소리가 많이 나오고 있는 이 시점에 LLM을 잘 활용하는 것도 중요하지만, 악용을 방지하는 방법도 모델 개발 이전에 선행되어야 하는 연구라고 생각한다.
- 다음 글에서는 MSJ에 대한 해결책으로 사용한 SFT, RL 등 논문에서 제시한 방법에 대해 정리하려고 한다.