대용량 비정형 데이터 처리방법 : 하둡

duri·2024년 2월 6일

ADP

목록 보기

7/18

특징
- 초고속 수집 성능과 확장성 : 실시간, 수집대상서버가 증가하면 증가량을 따라잡을수 있어야 함
- 데이터 전송 보장 메커니즘 : 수집된 데이터는 처리 및 분석을 위한 저장소인 분산파일 시스템, NoSQL, DB등에 저장되어야 함. 이 전송이 보장되어야 함.
- 다양한 수집과 저장 플러그인 : 로그 뿐 아니라 성능 모니터링 데이터, 소셜 서비스 데이터 등과 같은 다양한 비정형 데이터 '도' 저장할 수 있도록 내장 플러그인을 제공해야함
- 인터페이스 상속을 통한 애플리케이션 기능 확장 : 업무 특성 상 수집 시스템에서 제공하는 기능 중 일부를 수정해야 하는 경우 인터페이스를 확장해 원하는 부분만 비즈니스 용도에 맞게 수정할 수 있어야 함

대규모 분산 병렬처리 : 하둡
맵리듀스 시스템과 HDFS를 핵심 구성요소로 가지는 플랫폼 기술.
여러대의 컴퓨터를 하나의 시스템인 것처럼 묶어 분산환경에서 빅데이터를 저장 및 처리할 수 있다.

배우는중인 두리