하둡 (Hadoop)
- 대규모 데이터 분산 저장 및 처리를 돕는 오픈 소스 프레임워크
- 빅데이터를 처리할 수 있도록 도와주는 프레임워크
- Google MapReduce로 부터 시작됨
![](https://velog.velcdn.com/images/tett_77/post/3803e922-9d4c-49c5-8267-36dca4cdc0b9/image.png)
(이미지 출처 - https://www.databricks.com/kr/glossary/hadoop)
하둡의 특징
- 비구조적, 반구조적, 구조적 형식으로 저장가능
- 병렬터리로 대용량 데이터 처리를 도움
- 데이터 웨어하우스 솔루션에 대안을 제시한 기술
- 데이터 저장, 처리의 신속성, 확장성을 제공
- 오류를 쉽게 복구할 수 있음
하둡의 장단점
장점
- 대용량 처리 : TB, PB 규모의 데이터를 처리할 수 있음
- 확장성 : 클러스터에 노드를 추가하여 시스템 확장
- 내고장성 : 복제로 인해 노드장애에도 데이터 손실이 최소
- 오픈소스: 커뮤니티도 활발
단점
- 복잡성: 설정, 관리가 복잡, 생태계 학습을 해야함
- 실시간 처리보다는 일괄처리에 적합
사용이유?
- 대용량 데이터 처리에 효과적
- 저렴한 ㅂ비용
- 확장성
- 내고장성
- 다양한 데이터 유형 지원
참고