데이터 수집

dauuuum·2021년 3월 10일
0

Big Data

목록 보기
2/7
post-thumbnail

📝 데이터 수집

데이터 유형에 따라 데이터 수집 방식과 기술을 최적화하여 적용해야한다.

1) 정형데이터 수집 방식 및 기술

수집 방식설명
ETL수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스(DW) 및 데이터 마트(DM)에 저장하는 기술
FTPTCP/IP 기반으로 파일을 송·수신하는 응용계층 통신 프로토콜
API솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구
시스템 간 연동을 통해 실시간으로 데이터를 송·수신하는 인터페이스 기술
DBToDB데이터베이스 시스템 간 데이터를 동기화하거나 전송하는 기능을 제공하는 기술
Rsync원격으로 파일과 디렉터리를 동기화하는 응용 프로그램 활용 기술
Sqoop관계형 데이터베이스와 하둡 간 데이터 전송 기능을 제공하는 기술

2) 비정형데이터 수집 방식 및 기술

수집 방식설명
Crawling다양한 웹 사이트로부터 데이터를 수집하는 기술
RSSXML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술
Open API공개된 API를 이용하여 데이터를 수집하는 기술
Scrapy파이썬 언어 기반으로 크롤링하여 데이터를 수집하는 기술
Apache Kafka대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼 기술

3) 반정형데이터 수집 방식 및 기술

수집 방식설명
Sensing센서로부터 수집 및 생성된 데이터를 수집하는 기술
Streaming센서 데이터, 미디어 데이터를 실시간으로 수집하는 기술
Flume로그 데이터를 Event와 Agent를 통해 수집하는 기술
Scribe로그 데이터를 실시간으로 수집하는 기술
ChukwaAgent와 Collector 구성을 통해 데이터를 수집하고, 하둡에 저장하는 기술
🔎 자세히보기
[정형/반정형/비정형 데이터]
데이터의 구조적 관점에 따라 구분
정형: 정형화된 스키마 구조 데이터(ex. Oracle, MS-SQL 등)
반정형: 메타데이터나 스키마 정보를 포함하는 데이터(ex. XML, HTML 등)
비정형: 고정 필드 및 메타데이터, 스키마가 정의되지 않는 데이터(ex. 이미지, 동영상 등)

0개의 댓글