생략
생략
PDF 파일에 악성 JavaScript code를 난독화하여 공격하는 경우가 많음.
Embedded : 하드웨어나 소프트웨어가 다른 하드웨어, 소프트웨어의 일부로 내재되어있는 것.
static analysis
dynamic analysis
machine learning algorithm을 적용시키기 위해 JavaScript code를 토큰화 시킨다. 토큰화된 JavaScript에는 사용된 변수 타입, 함수 이름, operator 등이 있다.
PJScan으로 불림
POPPLER 라이브러리를 사용하여 JavaScript code를 찾고, feature extraction을 진행한다. 그 후, JavaScript interpreter인 Mozilla SpiderMonkey를 사용하여 lexical analysis를 진행한다. Lexical analysis는 JavaScript code를 토큰의 연속물로 표현하여 classification을 진행한다. PJScan은 TPR 85%, FPR 16-17%의 performance를 보여주었다.
다양한 obfuscattion techniques를 사용하여 난독화된 비슷한 script들을 식별하는 방법이다. 식별한다는 것의 의미가 잘 이해가 되지 않는다...malware들은 비슷한 특징을 띌것이니 함께 클러스터링 될 것이다, 이런 개념인가?
tokenization하는 방식에 따라 두 가지로 나뉘게 된다.
위의 방법을 적용해본 결과, 악성 PDF의 93%는 JavaScript를 포함하였고 정상 PDF는 5%만이 JavaScript를 포함하였다. 또한 hash table clustering 방법이 large data set에서는 더 효율적이었다.
특정 PDF 파일을 embedded keywords와 그들의 나타남을 통하여 집합으로 묶는 방법. Naive Bayes, SVM, Decision tree 등의 머신러닝 기법을 사용
path 등을 이용하는 것으로 생각됨. Hidost가 여기에 포함되지 않을까?
Hierarchical structure을 머신러닝 알고리즘에 사용될 수 있도록 표현된 feature들의 리스트로 바꾼는 것.
앞서 언급했던 방식들은 embedded objects에서 적절한 데이터를 추출하기 위해 PDF parser를 사용하였는데 지금 소개할 두 가지 방식들은 PDF parser를 사용하지 않는다.
생략
앞서 언급한 static, dynamic analysis는 장점과 단점이 있다. 이를 결합한 hybrid detection framwork는 악성 PDF 파일을 놓칠 가능성을 줄여줄 것이다.
의심스러운 PDF파일을 재귀적으로 세 가지 analyses를 진행해보는 방법을 고안한 학자(Maiorca et al., 2013)가 존재한다. 그는 embedded JavaScript code analysis, PDF structural analysis, analysis of the embedded EXE or SWF 파일 방식을 세 가지 방법으로 선정하였다.
생략
이 논문에서는 기본적으로 machine learning 접근방식을 채택했다. 기존의 detection model의 문제점은 새로운 악성 PDF 파일에 대해 학습하고, 통합할 수 없다는 것이다. detection model은 반드시 지속가능해야하고 새로운 파일들에 대해 업데이트 되어야 한다.
이 논문은 detection model의 능력 향상에 가장 기대가 되는 중요한 새로운 PDF파일에 대해 우선순위를 매겨 전문가에게 보내 수동 분석을 하기 위한 active learning method를 제안한다.
이 모델은 detection model의 수정능력 유지를 통해 새로운 악성 PDF파일들을 찾고, 익숙해질 것이다.
{1} 데이터가 입력
{2} repository를 통해 이미 학습된 파일인지 확인
{3} 학습된 파일이 아니라면 호환성을 확인
{4} detection model 가동
{5} 중요한 파일이라고 생각되면 전문가가 classification
{6} 라벨링된 데이터를 training set에 넣고 repository에 저장함
{7} 새로운 training set으로 모델 업데이트
Detection of malicious PDF files and directions for enhancements: A state-of-the art survey
저자 : Nir Nissim, Aviad Cohen, Chanan Glezer, Yuval Elovici