WISET 과제

GraGrass·2024년 1월 30일

WISET

주제: cybersecurity (AI, GPU 사용 연산 포함)

참고자료

1. 현행 피싱 판별 모델 조사

논문

① 딥러닝과 감성 분석에 따른 보이스피싱 여부 판별
(한국정보처리학회 학술대회논문집 28.2 (2021): 811-814)

일정시간 통화가 진행되면, 텍스트 및 음성적 특징 수집
수집된 데이터를 DNN 모델에 input 하여 보이스피싱 여부 판별
미리 구축된 감성 사전을 이용하여 수집된 텍스트 및 음성적 특징에서 나타나는 감성 정의 -> 보이스피싱 확률에 가중치로 활용

Bi-LSTM을 통한 텍스트 감성 분석
CNN을 이용한 음성 감성 분석

DNN, Bi-LSTM, CNN 기반 모델의 구조만을 제안했으며, 실제로 training을 하진 않음

② LSTM을 이용한 보이스피싱 판별 알고리즘 설계
(한국통신학회 학술대회논문집 2021.11 (2021): 989-990)

MFCC: 음성 추출 전처리 기법. 음성 신호 특징 추출에 사용
LSTM: RNN의 vanishing gradient problem을 해결하기 위해 제안된 순환 신경망 모델

*vanishing gradient problem: GD에서 도함수 값이 0이 되어 더이상 변화가 없어지는 문제 -> activation을 RelU로 하여 해결

일반 음성 파일은 Youtube를 통해 일반적인 대화 음성 파일을 추출하였고 보이스피싱 파일의 경우, 경찰청과 금융감독원 '보이스피싱 지킴이' 사이트를 통해 공개되어있는 파일을 수집하였다.

실제로 데이터셋을 확보하여 모델을 training & test
test에서는 92.19의 accuarcy, validation에서는 96.19의 accuracy를 보임

1초마다 iteration을 도는 MFCC+LSTM 모델 설계 후 train & test

③ KoBERT 기반 VoIP Voice Phishing 탐지 솔루션
(한국정보처리학회 학술대회논문집 30.2 (2023): 947-948)

본 연구에서는 금융감독원 보이스피싱 통화 녹음 데이터와 AI Hub 의 주요 영역별 회의 음성인식 데이터를 통해 모델을 학습시켰다.

보이스피싱 데이터: 금감원 / 일반 데이터: AI Hub
nlpaug 라이브러리 + GPT로 데이터 전처리

BERT 모델에서 BertForSequenceClassification 수행
8:1:1의 비율로 Train,Validation,Test set 배정
Accuracy, F1 score가 0.96 정도로 높은 성능을 보임

BERT 기반 classification 모델 설계 후 train, 라즈베리 파이 기반 임베디드 시스템 설계 및 API 배포

④ GRU 기반 단축 URL 판별 기법을 적용한 하이브리드 피싱 사이트 탐지 시스템
(전기전자학회논문지 27.3 (2023): 213-219)

단축 URL / 일반 URL을 구분
단축 URL -> content-based preprocessing -> Classification using XGBoost
일반 URL -> Classification using Transformer

사용한 데이터는 Mendeley Data에서 공개된 “Web page phishing detection”이라는 데이터를 사용하였고 11,430개의 데이터를 사용하였으며 피싱 URL과 정상 URL은 각각 5,715개이고, 단축 URL의 개수는 1,411개다. 단축 URL 중 피싱 URL은 905개이고 정상 URL은 506개이다. 훈련, 검증 및 테스트 데이터는 60:20:20 비율로 나눠 실험했다.

GRU 모델은 단축 URL 탐지(Contents based Decision)에서 좋은 성능을 보임

GRU 모델을 기반으로 단축 URL, 일반 URL을 모두 탐지할 수 있는 피싱 사이트 탐지 시스템

2. Cybersecurity 관련 다른 시나리오

기본 구조: GPU 분산 시스템을 활용한 AI training 가속 및 성능 향상

학부생 아이디어 경진대회

번역: LLM 활용, dataset 확보가 용이함
AI 대상 Adversarial Attack (적대적 공격): 방어 기법 생성??

GraGrass

올해는 진짜 갓생 산다

이전 포스트

Loop, I/O 병렬화

다음 포스트

WISET 과제

참고자료

Loop, I/O 병렬화

Chapter 1~3

0개의 댓글