CyberSecEval 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models - meta

오유찬·2026년 3월 23일

posting

목록 보기
4/5

Shengye Wan, Cyrus Nikolaidis, Daniel Song, David Molnar, James Crnkovich, Jayson Grace,
Manish Bhatt, Sahana Chennabasappa, Spencer Whitman, Stephanie Ding, Vlad Ionescu, Yue
Li, Joshua Saxe
Date: July 23, 2024

이 논문이 진행하는 프로젝트 캐슬 코더에 적합한지 알기 위해 읽어보는 중

자율 취약점 발견은 방어적 및 공격적 용도로 모두 사용될 수 있는 능력이지만, LLM에 대한 평가가 복잡할 수 있습니다. 이는 훈련 데이터에 이전에 발견된 취약점에 대한 지식이 포함될 수 있기 때문입니다. Bhatt 외(2024)의 CyberSecEval 2는 이를 해결하기 위해 프로그래밍적으로 새로운 테스트를 생성했습니다. Chauvin(2024)은 상용 소프트웨어에서 알려진 취약점을 캡처하는 새로운 테스트 스위트를 제안합니다. Glazunov와 Brand(2024)는 에이전트 프레임워크를 활용한 다단계 프롬프트를 사용할 경우 "Naptime" 시스템에서 취약점 발견 성능이 크게 향상된다고 보고합니다. 이는 취약점 발견을 위한 벤치마크를 공개하는 우리의 작업의 중요성을 보여줍니다. 새로운 프레임워크와 LLM이 나올 때마다 공개 벤치마크의 지속적인 개발을 장려합니다.

Phishing & LLM prompt vulnerability - pass

LLM을 이용한 자동화된 취약점 분석

Conclusion
5.2 Code Shield를 사용하여 불안전한 코드 제안의 위험 줄이기Code Shield는 LLM에 의해 생성된 불안전한 코드가 프로덕션 시스템에 도입되는 것을 방지하기 위해 설계된 추론 시간 필터링 도구입니다. 위의 결과는 LLM이 때때로 불안전한 코드를 출력할 수 있음을 보여줍니다. Code Shield는 구성 가능한 방식으로 불안전한 코드를 차단함으로써 이 위험을 완화합니다.Code Shield는 7개 프로그래밍 언어 및 50개 이상의 CWE에 걸쳐 불안전한 코드를 식별하기 위해 우리의 Insecure Code Detector (ICD) 정적 분석 라이브러리를 활용합니다. 낮은 대기 지연이 중요한 프로덕션 환경을 위해 최적화되어 있으며, 두 단계 스캔 접근 방식을 채택합니다. 초기 단계에서는 60ms 이내에 우려되는 코드 패턴을 신속하게 식별합니다. 코드가 의심스러운 것으로 표시되면, 두 번째 단계에서 약 300ms의 더 철저한 분석을 거칩니다. 특히, 90%의 경우 첫 번째 단계만 호출되어 대부분의 스캔에서 70ms 미만의 대기 시간을 유지합니다.Code Shield는 만병통치약이 아니며 모든 불안전한 코딩 관행을 탐지하지 못할 수도 있습니다. Insecure Code Detector의 효능을 이해하기 위해, 우리는 각 언어에 대해 불안전하거나 안전한지 여부에 따라 테스트 케이스에 해당하는 50개의 LLM 완성을 수동으로 레이블링했습니다. 그런 다음, 우리는 각 언어별 및 전체적으로 Insecure Code Detector 정적 분석 접근 방식의 정밀도와 재현율을 계산했습니다. 전체적으로 Insecure Code Detector는 LLM이 생성한 불안전한 코드를 탐지하는 데 있어 96%의 정밀도와 79%의 재현율을 보였습니다.또한, 일부 프로덕션 환경에서 관찰된 바와 같이 10%의 쿼리가 300ms 이상 소요될 수 있는 약간의 지연을 초래할 수 있습니다. 그럼에도 불구하고 Code Shield는 Llama 모델이 생성한 코드의 보안을 강화하는 데 유용성을 보여주었으며, 프로덕션 소스 코드를 생성하기 위해 Llama 모델을 배포할 때 Code Shield의 배포를 권장합니다

profile
열심히 하면 재밌다

0개의 댓글