LLM Prompt Injection은 input prompt (입력 프롬프트)를 조작하여 언어 모델의 취약점을 찾는 것이다. 해당 취약점을 이용하여 공격자는 다음과 같은 공격을 실행할 수 있다.
클라이언트 단에서 이렇게 여러 제한을 풀고 악의적인 행동을 할 수 있는점에서 우리는 이러한 취약점을 주목할 필요가 있다.
Jailbreaking LLM은 해당 언어모델에 적용되어있는 보안을 우회해 비윤리적이거나 제한된 콘텐츠를 생성하도록 LLM을 조작하는것을 말한다. 공격자는 학습 데이터, 모델 아키텍쳐 또는 입력 처리의 취약점을 악용해서 윤리적인 안전장치를 무시해버린다.
예를 들어, 비윤리적인 요청 혹은 질문을 거부하도록 설계되어있는 AI 챗봇을 해당 취약점을 이용하여 비윤리적인 행동을 하게 만든다거나 정보를 제공토록 유도하게 하는것을 Jailbreaking 이라 한다.
일반적으로 주요 공격 요소들중에는 다음이 있다.
운영 위험: 탈옥된 모델은 피싱 이메일이나, 가짜 뉴스 또는 악성코드를 제작할수 있게 하여 사이버공격 위험을 높일수 있다.
데이터 유출: 훈련 데이터나 사용자 입력에서 민감한 정보를 대상으로 프롬프트를 통해 추출 시킬수 있다.
평판 손상: AI 시스템에 대한 신뢰를 약화 시킨다.
윤리적 및 규정 준수 문제: 악의적인 훈련 데이터는 윤리적 지침을 위반하여 차별적인 결과들을 만들수 있다.
프롬프트 필터링: Regex, ML 분류기 또는 규칙 시스템을 적극적으로 사용하여, 적대적인 패턴을 학습시키고 감지한다. 또한 문맥 인식 검증을 늘려 상호작용을 모니터링 한다.
견고한 모델 만들기: 인간 피드백을 통한 강화 학습 (RLHF)의 악의적인 지시를 거부하기위해 모델을 미세 조정한다. AI 레드팀을 만들어 적대적인 프롬프트가 있는 모델을 사전에 테스트하여 취약점을 발견한다.
다층 방어 구조: 여러 안전 필터 (키워드 차단, 감정 분석) 등을 배포한다. "유해한 요청을 거부하는 윤리적 AI" 라는 시스템 수준의 지침을 만든다.
지속적인 모니터링: 비정상적인 패턴을 추적한다. (특정 언어의 갑작스런 증가 등). 적응형 업데이트를 적용해 진화하는 공격에 대응하기 위해 적대적 예제에 대해 모델을 정기적으로 훈련한다.
거버넌스: OWASP Top 10 LLM 을 준수하고 여러 LLM 보안 프레임워크들을 채택시킨다.