from complex information to simple form (eliminating unnecessary information)
1) Host Intrusion Detection
: Host(Server, desktop, laptop, embedded system)
- correlation analysis of various signals => generate matrix
signals?
- Running process
- active user accounts
- system scheduler changes
위와 같은 signal을 모니터링하고 분석하여 호스트 침입을 탐지
2) Network Intrusion Detection
: 네트워크에서 발생하는 이상 동작을 감지
- 수집한 트래픽에 포함된 정보 중 필요한 것을 추출
- 패킷 헤더만 추출하여 검사하는 것과 같이(packet filter)
2. Types of Learning
수집한 데이터를 check(데이터 전처리, Pre-Processing)이 필요
(including 데이터 자체에 문제가 없는지, 형식 통일 등)
- 수집
- 전처리
- 학습 할 모델을 설정
Types of Learning
- 크게 2가지(지도/비지도 학습)로 구분
i) 지도 : 정답이 정해짐
e.g. 데이터 라벨에 정답이 정해짐 (공격dataset, 비공격dataset)
ii) 비지도 (AI보안에서 사실 핵심) : 정답을 제공하지 않고 알아서 분석하도록 제공
=> 모르는 공격을 알아낼 수 있음
Hybrid를 사용한다면
: 일부 data set은 지도/ 일부는 비지도
그 외에도 통계 기반 등의 방식이 존재
1) Supervised
2) Unsupervised
-> more practical than supervised
3. Problems in Machine Learning Application
1) Cost of Error가 비쌈 : 한 번 잘못 분류하면 오류 비용이 비쌈
=> 전문가보다 reliable한가
2) Opacity of : 어떤 모델이 뚫렸을 때, 어디를 고치기가 쉽지않음
3) 적대적 공격에 본질적으로 약함
4. Machine Learning-based anomaly detection
1) Issues
- 이상 발견 시 AI에게 조치까지 맡기지 않고, 일단은 사람에게 정확한 정보를 알리도록 할 것
- 사고 대응 : 시스템이 수동적 대응할지 , 바로 대응할 지에 대한 가이드라인이 필요
- 위협 완화
- Securing Explainability
e.g. AI opacity (black box)
자율주행자동차가 멈췄다면 => 무엇을 사람으로 봤고, 왜 이런 판단을 했는지 사람이 이해할 수 있게 설명해야함
- Securting Mainntainability
학습에 사용한 data를 본질적으로 계속 사용할 수 없음 (언제까지 사용할지에 대해 고려해야함)