1. 다크웹이란?
1.1 다크웹의 정의
- 다크웹(Dark Web)은 인터넷의 일부로, 일반 검색 엔진에서 접근할 수 없고 특정 소프트웨어나 설정을 통해서만 접속할 수 있는 영역이다.
- 일반 웹(서피스 웹)과 달리 익명성과 비공개성이 강조된 네트워크이다.
1.2 다크웹의 특징
- 익명성: Tor 브라우저를 사용하여 접속하며, 사용자의 IP 주소가 여러 노드를 통해 우회되어 노출되지 않는다.
- 폐쇄성: 초대나 특정 조건이 없으면 접근할 수 없는 포럼이나 마켓이 많다.
- 활용:
- 긍정적: 언론인, 활동가들이 검열을 피하기 위한 통로로 사용한다.
- 부정적: 정보 유출(이메일, 비밀번호, 신용카드 정보 등), 마약, 무기 거래 등 부정적인 목적으로 활용된다.
2. OSINT란?
2.1 OSINT의 정의
- OSINT(Open Source Intelligence)는 공개적으로 접근 가능한 정보를 수집하고 분석하는 기술이다.
- 뉴스, 소셜 미디어, 블로그, 포럼, 기업 웹사이트 등 다양한 출처에서 데이터를 가져온다.
2.2 OSINT의 목적
- 보안 위협을 식별하고 대응 전략을 수립하는 데 활용된다.
- 기업과 개인의 정보 노출 상태를 분석하여 위험도를 평가하는 데 사용된다.
3. 데이터 저장 및 검색 기술
3.1 MongoDB
- MongoDB는 JSON 형식의 데이터를 저장하는 NoSQL 데이터베이스이다.
- 장점:
- 유연한 데이터 구조를 지원하여 다크웹에서 수집된 데이터를 효율적으로 저장할 수 있다.
- 문서 기반으로 데이터 관계를 단순하게 관리할 수 있다.
3.2 Elasticsearch
- Elasticsearch는 대량의 데이터를 빠르게 검색하고 분석할 수 있는 도구이다.
- 특징:
- 실시간 데이터 검색 및 시각화를 지원한다.
- MongoDB와 연동하여 중요한 데이터를 선택적으로 적재할 수 있다.
4. 크롤링과 Tor 네트워크
4.1 크롤링이란?
- 크롤링(Crawling)은 웹사이트의 데이터를 자동으로 수집하는 기술이다.
- 다크웹 크롤링:
- Tor 네트워크를 통해 접근해야 하며, 일반적인 웹 크롤링보다 더 어렵다.
4.2 Tor 네트워크
- Tor(The Onion Router)는 익명 통신 네트워크로, 다크웹 접근을 위한 핵심 도구이다.
- 작동 방식:
- 데이터가 여러 노드를 통해 암호화되어 전송된다.
- 사용자의 신원이 보호된다.
5. 경고 시스템과 CLI 도구
5.1 경고 시스템
- 수집된 데이터를 분석하여 유출된 정보가 탐지되면 실시간으로 알림을 전송한다.
- 활용:
- 이메일 알림, CLI 출력, 데스크탑 알림 등 다양한 방법으로 제공할 수 있다.
5.2 CLI 도구
- CLI(Command Line Interface) 도구는 터미널 환경에서 실행되며, 직관적이고 가벼운 사용자 경험을 제공한다.
- 구성 요소:
6. 다크웹 정보 벤더
- 다크웹에서 데이터를 신뢰성 있게 탐지하기 위해 전문 벤더의 데이터를 활용할 수 있다.
- 대표적인 벤더:
- SOCRadar: 다크웹과 관련된 위협 인텔리전스 데이터를 제공한다.
- Cyfirma, Group-IB, Zerofox: 보안 위협 탐지 및 분석을 위한 솔루션을 제공한다.
7. 프로젝트 진행 흐름
7.1 데이터 수집
- 다크웹 크롤러를 통해 데이터를 MongoDB에 저장한다.
- 주요 정보(이메일, 신용카드, 사용자 ID 등)를 식별한다.
7.2 데이터 분석
- 수집된 데이터를 정제하고 유의미한 정보를 도출한다.
- 키워드 기반으로 위험 수준을 분류한다.
7.3 경고 생성
- 이상 정보 탐지 시 사용자에게 실시간 알림을 제공한다.
- CLI 및 이메일을 통해 알림을 전달한다.
8. 사용 사례
- 기업 보안 팀:
- 회사 계정의 이메일이나 비밀번호가 유출되었는지 확인할 수 있다.
- 유출 정보 기반으로 보안 정책을 강화할 수 있다.
- 개인 사용자:
- 자신의 개인정보가 유출되었는지 확인할 수 있다.
- 유출된 정보를 기반으로 빠르게 조치를 취할 수 있다.