막대한 양의 정형 또는 비정형 데이터의 집합이다.
이전에 사용하지 않거나 알지 못했던 새로운 데이터, 기존 데이터에 새로운 가치가 더해진 데이터를 칭한다.
일련의 데이터들을 정의하고 설명해주는 데이터
디지털 정보 자원을 장기적으로 보존하기 위한 작업이다.
오픈 소스를 기반으로 한 분산 컴퓨팅 플랫폼이다.
하둡 기반의 분산 데이터 웨어하우스 프로젝트이다. 우리나라가 주도하여 개발하고 있다.
데이터를 삭제하는 것이 아닌 압축하고, 중복된 정보는 배제하고, 새로운 기준에 따라 나누어 저장하는 작업
데이터 웨어하우스에 저장된 데이터 집합에서 사용자의 요구에 따라 유용하고 가능성 있는 정보를 발견하기 위한 기법
다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 분석하여 의사결정에 활용하는 방식