LLM, Jailbreaking

JunD·2025년 10월 24일

자연어처리(NLP)

목록 보기
6/10
post-thumbnail

LLM Jailbreak

  • jailbreak는 ‘탈옥’을 의미하는 단어로, LLM에게 탈옥을 유도하게 한다. 즉, LLM의 안전 범주를 넘은 응답을 유도하는 방법

  • LLM이 Violent and Deceitful한 내용의 응답을 하는 문제점 의미

  • LLM이 위험한 응답을 하지 못하도록 규제를 할텐데 이런 문제가 발생할까? 아래 그림을 살펴보면,
    | Anil, Cem, et al.2024


  • 논문의 필자는 MSJ.(Many-shot jailbreaking, 다중 샷 탈옥)의 문제점에 대해 언급한다. 그림의 좌측, FSJ(Few-shot jailbreaking)을 보면 차를 훔치는 방법, 돈을 위조하는 법 등 범죄 또는 불법 행동 방법에 대한 질문과 그에 대한 응답을 제공한 후, 다른 질문을 남긴 후 응답을 받는다. FSJ를 사용하는 경우 LLM은 말해줄 수 없다는 응답을 한다.

  • 하지만, 그림의 우측을 살펴보면 방식은 FSJ와 같지만 개수를 늘려서 프롬프트를 작성한 경우, LLM이 폭탄을 설치하는 방법에 대해 답변을 해주는 결과가 발생한다.

  • 최신 LLM은 점차 입력 토큰의 개수 제한이 늘어나고 이를 악용한 방법이라고 할 수 있다.


  • 위 그림과 같이 shot(Q-A)의 개수가 증가할 수록 유해한 응답을 하는 비율이 급격하게 높아짐을 확인할 수 있다.

  • MSJ은 핵심은 잠재적 위험성이 있는 질문을 차례로 작성하여 점진적으로 LLM에게 탈옥을 유도하고, 마지막에 최종 질문을 하는 방법을 사용한다.


  • LLM이 발전함에 따라 역시 이를 악용하는 사례와 방법이 나오고 있다.
    LLM 사용에 대한 규제가 필요하다는 목소리가 많이 나오고 있는 이 시점에 LLM을 잘 활용하는 것도 중요하지만, 악용을 방지하는 방법도 모델 개발 이전에 선행되어야 하는 연구라고 생각한다.
  • 다음 글에서는 MSJ에 대한 해결책으로 사용한 SFT, RL 등 논문에서 제시한 방법에 대해 정리하려고 한다.
profile
Data Scientist & Data Analyst

0개의 댓글