
보안 환경에서 Cyber threat intelligence(CTI)는 위협을 이해하고 대응하기 위한 핵심 정보로서 중요한 역할을 함
최근 LLM이 CTI 분야에서 잠재력을 보였으나, hallucination 문제에 대한 우려가 여전히 존재
기존 벤치마크들은 LLM의 일반적 성능을 평가하지만, CTI 특화 과제의 실용적·응용 측면을 다루는 벤치마크는 존재 X
해당 연구에서는 CTI 환경에서 LLM의 성능을 평가하기 위해 CTIBench를 제안

CTIBench는 CTI 특화 LLM 평가 벤치마크로 LLM의 기억력, 이해력, 문제 해결 능력, 추론 능력을 측정하는 다섯 가지 과제로 구성
CTI-MCQ(중요) : NIST, MITRE, CWE, CAPEC 등 권위 있는 자료를 기반으로 객관식 문제를 생성·검증하여 핵심 CTI 지식 평가 (Include standards, threat identification, detection strategies, mitigation techniques, and best practices)
- NIST, GDPR과 같은 규정 포함
- STIX, TAXII와 같은 CTI 공유 표준을 반영해 사이버 보안 기본 지식 문제 구성
- MITRE ATT&CK 프레임워크, CWE 데이터 베이스, VAPEC을 활용해 공격 패턴, 위협 행위, APT 캠페인, 탐지 방법, 완화 전략, 일반 소프트웨어 취약점, 공격 패턴 분류에 관한 문제 개발
- 또한 직접 수집 및 선별하여 데이터를 보강
CTI-RCM: CVE 설명과 CWE 분류를 정확히 매핑하는 루트 원인 분석 과제.
- NVD에서 데이터를 수집
- NVD: CVE로 식별된 과거 취약점의 설명과, 이에 매핑된 CWE 항목을 제공
CTI-VSP: 취약점 설명을 기반으로 CVSS v3 점수 벡터를 예측하는 심각도 예측 과제.
- 기본(Base), 시간적(Temporal), 환경(Environmental) 세 가지 메트릭 그룹으로 구성
- CTI-RCM과 동일한 데이터 소스를 사용
CTI-ATE: 위협 행위 설명에서 MITRE ATT&CK 기법 ID를 추출·매핑하는 공격 기법 식별 과제.
- ID는 공격 수명 주기의 여러 단계에서 사용되는 상대방(공격자)의 고유한 기법을 나타냄
CTI-TAA: 위협 보고서를 분석해 알려진 위협 행위자에게 귀속하는 고난도 추론 과제.
- 사이버 공격 활동을 한 개인, 그룹, 조직을 찾아내는 과제
- 매우 고난이도
각 과제는 NVD, MITRE ATT&CK, APT 보고서 등 신뢰성 있는 출처에서 데이터를 수집하고, 일부는 LLM 생성 질문과 수작업 검증을 병행해 품질을 확보
CTIBench는 CTI 도메인 전반에서 LLM의 실무 적용 가능성을 정량적으로 평가할 수 있는 구조를 제공

ChatGPT-3.5 (gpt-3.5-turbo)
ChatGPT-4 (gpt-4-turbo)
Gemini-1.5
LLAMA3-70B
LLAMA3-8B
Temperature = 0 (응답의 일관성 및 결정적 출력 확보)
top_p = 1
모든 과제는 zero-shot 프롬프트를 사용
LLM에게 사이버 위협 인텔리전스 전문가 역할을 지시
You are a cybersecurity expert specializing in cyber threat intelligence.
Analyze the following CVE description and map it to the appropriate CWE.
Provide a brief justification for your choice.
Ensure the last line of your response contains only the CWE ID.
CVE Description:
{description}
cvss 사용예측을 세 가지로 분류:
두 가지 정확도 산출:
평가 범위 제한
언어 제한
악용 가능성