📝 데이터 수집
데이터 유형에 따라 데이터 수집 방식과 기술을 최적화하여 적용해야한다.
1) 정형데이터 수집 방식 및 기술
수집 방식 | 설명 |
---|
ETL | 수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스(DW) 및 데이터 마트(DM)에 저장하는 기술 |
FTP | TCP/IP 기반으로 파일을 송·수신하는 응용계층 통신 프로토콜 |
API | 솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구 시스템 간 연동을 통해 실시간으로 데이터를 송·수신하는 인터페이스 기술 |
DBToDB | 데이터베이스 시스템 간 데이터를 동기화하거나 전송하는 기능을 제공하는 기술 |
Rsync | 원격으로 파일과 디렉터리를 동기화하는 응용 프로그램 활용 기술 |
Sqoop | 관계형 데이터베이스와 하둡 간 데이터 전송 기능을 제공하는 기술 |
2) 비정형데이터 수집 방식 및 기술
수집 방식 | 설명 |
---|
Crawling | 다양한 웹 사이트로부터 데이터를 수집하는 기술 |
RSS | XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술 |
Open API | 공개된 API를 이용하여 데이터를 수집하는 기술 |
Scrapy | 파이썬 언어 기반으로 크롤링하여 데이터를 수집하는 기술 |
Apache Kafka | 대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼 기술 |
3) 반정형데이터 수집 방식 및 기술
수집 방식 | 설명 |
---|
Sensing | 센서로부터 수집 및 생성된 데이터를 수집하는 기술 |
Streaming | 센서 데이터, 미디어 데이터를 실시간으로 수집하는 기술 |
Flume | 로그 데이터를 Event와 Agent를 통해 수집하는 기술 |
Scribe | 로그 데이터를 실시간으로 수집하는 기술 |
Chukwa | Agent와 Collector 구성을 통해 데이터를 수집하고, 하둡에 저장하는 기술 |
🔎 자세히보기
[정형/반정형/비정형 데이터]
데이터의 구조적 관점에 따라 구분
정형: 정형화된 스키마 구조 데이터(ex. Oracle, MS-SQL 등)
반정형: 메타데이터나 스키마 정보를 포함하는 데이터(ex. XML, HTML 등)
비정형: 고정 필드 및 메타데이터, 스키마가 정의되지 않는 데이터(ex. 이미지, 동영상 등)