Prompt Injection에 대해 자세히 알아보자

penclicker·2025년 6월 12일

목록 보기

4/5

Introduction

LLM Prompt Injection은 input prompt (입력 프롬프트)를 조작하여 언어 모델의 취약점을 찾는 것이다. 해당 취약점을 이용하여 공격자는 다음과 같은 공격을 실행할 수 있다.

클라이언트 단에서 이렇게 여러 제한을 풀고 악의적인 행동을 할 수 있는점에서 우리는 이러한 취약점을 주목할 필요가 있다.

Jailbreaking LLM은 해당 언어모델에 적용되어있는 보안을 우회해 비윤리적이거나 제한된 콘텐츠를 생성하도록 LLM을 조작하는것을 말한다. 공격자는 학습 데이터, 모델 아키텍쳐 또는 입력 처리의 취약점을 악용해서 윤리적인 안전장치를 무시해버린다.

예를 들어, 비윤리적인 요청 혹은 질문을 거부하도록 설계되어있는 AI 챗봇을 해당 취약점을 이용하여 비윤리적인 행동을 하게 만든다거나 정보를 제공토록 유도하게 하는것을 Jailbreaking 이라 한다.

일반적으로 주요 공격 요소들중에는 다음이 있다.

Prompt Injection: 악의적인 명령어를 무해해 보이게 명령어를 꾸며 삽입한다. (예시: 긴 기사나, 글에 악의적인 내용을 껴놓고 명령을 하는 행동)
Adversarial Suffix Optimization: 입력 토큰을 반복적으로 수정하여 최종적으로 악의적인 결과값을 도출시키도록 유도 한다.
Multimodal Exploits: 텍스트와 악의적인 이미지나 코드를 넣어 안전 필터를 우회시키는 방법이다.
Roleplaying/Hyphothetical: 가상 시나리오 내에서 유해한 질문을 프레임화 시키는 방법으로 가상 시나리오를 만들어서 해당 가상 시나리오라는것을 AI에게 인식시킨다음 악의적인 결과값을 도출해 내는것을 말한다.
Data Poisoning: 모델의 행동을 손상시키기 위해 악의적 데이터를 반복적으로 주입시켜 모델의 데이터를 손상시키게 만든다.

프롬프트 필터링: Regex, ML 분류기 또는 규칙 시스템을 적극적으로 사용하여, 적대적인 패턴을 학습시키고 감지한다. 또한 문맥 인식 검증을 늘려 상호작용을 모니터링 한다.
견고한 모델 만들기: 인간 피드백을 통한 강화 학습 (RLHF)의 악의적인 지시를 거부하기위해 모델을 미세 조정한다. AI 레드팀을 만들어 적대적인 프롬프트가 있는 모델을 사전에 테스트하여 취약점을 발견한다.
다층 방어 구조: 여러 안전 필터 (키워드 차단, 감정 분석) 등을 배포한다. "유해한 요청을 거부하는 윤리적 AI" 라는 시스템 수준의 지침을 만든다.
지속적인 모니터링: 비정상적인 패턴을 추적한다. (특정 언어의 갑작스런 증가 등). 적응형 업데이트를 적용해 진화하는 공격에 대응하기 위해 적대적 예제에 대해 모델을 정기적으로 훈련한다.
거버넌스: OWASP Top 10 LLM 을 준수하고 여러 LLM 보안 프레임워크들을 채택시킨다.

Security Researcher | Penetration Tester (모든 포스트는 안전한 보안을 위한 모의해킹 방법론입니다. 안전한 보안을 만드는것을 지향합니다.)