[논문읽기] 다중 머신러닝 알고리즘을 이용한 악성 URL 예측 시스템 설계 및 구현

박소정·2023년 5월 18일
0

문서읽기

목록 보기
9/9
post-thumbnail

다중 머신러닝 알고리즘을 이용한 악성 URL 예측 시스템 설계 및 구현

서론

공격자는 사용자의 개인정보 입력을 유도하기 위해 유명 온라인 서비스 웹페이지와 동일한 화면 구성을 주로 이용한다.
피싱 페이지는 정상 로그인 페이지와 동일한 화면 구성을 이용한 피싱 페이지 사례를 보여준다.
피싱 페이지는 정상 페이지의 화면과 동일한 구성을 보이지만 실제 URL 주소와 프로토콜은 서로 다름을 알 수 있다.

유포지: 사용자 PC에 직접 악성코드를 감염시킨다.
경유지: 사용자들로 하여금 유포지로 접속을 유도한다.

본 논문에서는 다중 머신러닝 알고리즘을 이용하여 악성 URL을 예측하는 시스템에 대해 제안하고, 예측 정확도를 향상시키기 위해 머신러닝 모델 조합의 예측 결과를 측정하는 실험을 수행하였다. 실험을 통해 단일 모델보다 다수 모델 조합이 예측 성능 향상에 유용함을 증명하였다.

관련연구

기존 연구에서는 악성 URL를 탐지하고 예측하기 위해 다양한 특징 및 머신러닝 알고리즘을 제안하고 있으나 대부분 특징과 전처리 과정을 보완하여 특화된 알고리즘을 제안하고 있어 다양한 머신러닝 알고리즘의 장점을 충분히 반영하지 못하고 있다.

다중 머신러닝 기반 악성 URL 예측 시스템

URL의 어휘적 특성을 이용하여 여러 머신러닝 알고리즘별로 모델을 생성하고, 모델들의 조합을 통해 URL의 악성여부를 예측하는 시스템이다.
본 논문에서 제안하는 시스템은 특징 추출 모듈, 벡터 생성 모듈, 모델 생성 모듈, 악성 URL 예측 모듈로 구성된다.
벡터 생성 모듈: 특징을 수치화, 정규화를 통해 벡터 형태의 학습데이터로 변환
모델 생성 모듈: 5개의 머신러닝 알고리즘별 학습을 수행하여 모델을 생성
악성 URL 예측 모듈: 테스트 URL을 입력받아 모델별 예측 결과를 도출

신속하게 악성 URL을 예측하기 위해 URL만으로 추출이 가능한 어휘적 특징을 이용햇다.
24개의 어휘적 특징을 이용했고, 특징별로 측정하는 단위에 따라 길이, 개수, 존재여부 유형으로 구분하였다.

웹 기반의 GUI를 구현하였고, 주요 기능은 신규 URL을 입력하는 기능과 머신러닝 모델별 예측 결과를 출력하는 기능이다.

실험 결과 및 고찰

정상 URL 약 43만개, 악성 URL 15만개를 이용하였다.
정상 URL은 글로벌 웹 사이트 순위 정보를 제공하는 서비스인 Alexa를 통해 수집하였다.
악성 URL은 피싱 정보를 제공하는 서비스인 Openphish와 Phishtank, KISA에서 운영하고 있는 악성코드 은닉 사이트 탐지 시스템에서 수집하였다.

모델을 생성하기 위한 학습데이터와 성능 측정을 위한 테스트데이터는 정상 URL과 악성 URL에서 각각 80%, 20% 비율로 구분하여 사용하였다.

24개의 어휘적 특징을 이용하여 5개 머신러닝 알고리즘(DT, RF, GBM, XGB, SVM)별로 학습을 수행 하였다.
RF가 93.51%로 가장 좋은 성능을 보였다.
RF와 SVM, GBM을 조합한 경우에 가장 높은 성능 향상을 보였다.

결론

신속한 URL 예측을 위해 특징 추출이 용이한 어휘적 특징을 이용하고 다중 머신러닝 모델을 적용한 악성 URL 예측 시스템을 제안하였다.
또한 단일 모델보다 다중 모델 조합이 예측 성능 향상에 유용함을 증명하였다.

0개의 댓글