WISET 과제

GraGrass·2024년 1월 30일

주제: cybersecurity (AI, GPU 사용 연산 포함)

참고자료

1. 현행 피싱 판별 모델 조사

논문

① 딥러닝과 감성 분석에 따른 보이스피싱 여부 판별
(한국정보처리학회 학술대회논문집 28.2 (2021): 811-814)

  • 일정시간 통화가 진행되면, 텍스트 및 음성적 특징 수집
  • 수집된 데이터를 DNN 모델에 input 하여 보이스피싱 여부 판별
  • 미리 구축된 감성 사전을 이용하여 수집된 텍스트 및 음성적 특징에서 나타나는 감성 정의 -> 보이스피싱 확률에 가중치로 활용

  • Bi-LSTM을 통한 텍스트 감성 분석
  • CNN을 이용한 음성 감성 분석

DNN, Bi-LSTM, CNN 기반 모델의 구조만을 제안했으며, 실제로 training을 하진 않음

② LSTM을 이용한 보이스피싱 판별 알고리즘 설계
(한국통신학회 학술대회논문집 2021.11 (2021): 989-990)

  • MFCC: 음성 추출 전처리 기법. 음성 신호 특징 추출에 사용
  • LSTM: RNN의 vanishing gradient problem을 해결하기 위해 제안된 순환 신경망 모델

*vanishing gradient problem: GD에서 도함수 값이 0이 되어 더이상 변화가 없어지는 문제 -> activation을 RelU로 하여 해결

일반 음성 파일은 Youtube를 통해 일반적인 대화 음성 파일을 추출하였고 보이스피싱 파일의 경우, 경찰청과 금융감독원 '보이스피싱 지킴이' 사이트를 통해 공개되어있는 파일을 수집하였다.

  • 실제로 데이터셋을 확보하여 모델을 training & test
  • test에서는 92.19의 accuarcy, validation에서는 96.19의 accuracy를 보임

1초마다 iteration을 도는 MFCC+LSTM 모델 설계 후 train & test

③ KoBERT 기반 VoIP Voice Phishing 탐지 솔루션
(한국정보처리학회 학술대회논문집 30.2 (2023): 947-948)

본 연구에서는 금융감독원 보이스피싱 통화 녹음 데이터와 AI Hub 의 주요 영역별 회의 음성인식 데이터를 통해 모델을 학습시켰다.

  • 보이스피싱 데이터: 금감원 / 일반 데이터: AI Hub
  • nlpaug 라이브러리 + GPT로 데이터 전처리

  • BERT 모델에서 BertForSequenceClassification 수행
  • 8:1:1의 비율로 Train,Validation,Test set 배정
  • Accuracy, F1 score가 0.96 정도로 높은 성능을 보임

BERT 기반 classification 모델 설계 후 train, 라즈베리 파이 기반 임베디드 시스템 설계 및 API 배포

④ GRU 기반 단축 URL 판별 기법을 적용한 하이브리드 피싱 사이트 탐지 시스템
(전기전자학회논문지 27.3 (2023): 213-219)

  • 단축 URL / 일반 URL을 구분
  • 단축 URL -> content-based preprocessing -> Classification using XGBoost
  • 일반 URL -> Classification using Transformer

사용한 데이터는 Mendeley Data에서 공개된 “Web page phishing detection”이라는 데이터를 사용하였고 11,430개의 데이터를 사용하였으며 피싱 URL과 정상 URL은 각각 5,715개이고, 단축 URL의 개수는 1,411개다. 단축 URL 중 피싱 URL은 905개이고 정상 URL은 506개이다. 훈련, 검증 및 테스트 데이터는 60:20:20 비율로 나눠 실험했다.

  • GRU 모델은 단축 URL 탐지(Contents based Decision)에서 좋은 성능을 보임

GRU 모델을 기반으로 단축 URL, 일반 URL을 모두 탐지할 수 있는 피싱 사이트 탐지 시스템

2. Cybersecurity 관련 다른 시나리오

기본 구조: GPU 분산 시스템을 활용한 AI training 가속 및 성능 향상

학부생 아이디어 경진대회

  • 번역: LLM 활용, dataset 확보가 용이함
  • AI 대상 Adversarial Attack (적대적 공격): 방어 기법 생성??
profile
올해는 진짜 갓생 산다

0개의 댓글