LLM, Jailbreaking

JunD·2025년 10월 24일

자연어처리(NLP)

목록 보기

6/13

논문의 필자는 MSJ.(Many-shot jailbreaking, 다중 샷 탈옥)의 문제점에 대해 언급한다. 그림의 좌측, FSJ(Few-shot jailbreaking)을 보면 차를 훔치는 방법, 돈을 위조하는 법 등 범죄 또는 불법 행동 방법에 대한 질문과 그에 대한 응답을 제공한 후, 다른 질문을 남긴 후 응답을 받는다. FSJ를 사용하는 경우 LLM은 말해줄 수 없다는 응답을 한다.
하지만, 그림의 우측을 살펴보면 방식은 FSJ와 같지만 개수를 늘려서 프롬프트를 작성한 경우, LLM이 폭탄을 설치하는 방법에 대해 답변을 해주는 결과가 발생한다.
최신 LLM은 점차 입력 토큰의 개수 제한이 늘어나고 이를 악용한 방법이라고 할 수 있다.

위 그림과 같이 shot(Q-A)의 개수가 증가할 수록 유해한 응답을 하는 비율이 급격하게 높아짐을 확인할 수 있다.
MSJ은 핵심은 잠재적 위험성이 있는 질문을 차례로 작성하여 점진적으로 LLM에게 탈옥을 유도하고, 마지막에 최종 질문을 하는 방법을 사용한다.

LLM이 발전함에 따라 역시 이를 악용하는 사례와 방법이 나오고 있다.
LLM 사용에 대한 규제가 필요하다는 목소리가 많이 나오고 있는 이 시점에 LLM을 잘 활용하는 것도 중요하지만, 악용을 방지하는 방법도 모델 개발 이전에 선행되어야 하는 연구라고 생각한다.

다음 글에서는 MSJ에 대한 해결책으로 사용한 SFT, RL 등 논문에서 제시한 방법에 대해 정리하려고 한다.

Data Scientist & Data Analyst