존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. 즉, 데이터 베이스 등 기존의 데이터 처리 응용 소프트웨어(data-processing application software)로는 수집 · 저장 · 분석 · 처리하기 어려울 정도로 방대한 양의 데이터를 의미한다. 등장은 스마트 시대 때 등장했으며 주관적이고 계속 변하는 특징을 가지고 있다.
5V라고 부른다. (VOLUME, VELOCITY, VARIETY, VALUE, VERACITY)
1. 규모
⇒ 데이터의 크기
2. 속도
⇒ 대용량의 데이터를빠르게 처리하고 분석할 수 있는 속성
3. 다양성
⇒ 데이터의 유형이 다양하다
4. 가치
⇒ 빅데이터를 저장하려고 IT인프라 구조 시스템을 구현하는 비용
5. 정확성
⇒ 데이터에 대한 신뢰 수준
불확실성 통찰력 : 다수의 시나리오로 상황변화 대처
리스크 대응력 : 실시간 의사결정 지원
스마트 경쟁력 : 제품 경제력 확보
융합 창조력 : 신융합 시장 창출
조이의 법칙:
빅데이터 도입에 있어서 데이터 개방의 중요성을 강조한다.
수용의 4단계
교육 ⇒ 탐색 ⇒ 시험 ⇒ 제공
정형 데이터 : 스쿱, 히호
비정형 데이터 : 척와, 플럼, 스크라이브, 카프카
에이브로
스리프트 - 다양한 언어를 지원
프로토콜 버퍼 - 구글이 개발했으며 직렬화 속도가 빠르다는 특징
맵리듀스 - 가장 기본적인 툴
임팔라 - 빠른 성능
프레스토 - 대화형 질의를 처리하기 위한 용
하이브 - 읽기 전용
타조 - 속도가 빠르다. 특정한 솔루션에 종속하지 않는다.
피그 - 자체언어를 제공
머아웃 - 기계학습용 라이브러리
스파크 - 인메모리 기반의 범용 데이터 처리 플랫폼
에이치카탈로그
이 데이터 분석 사례는 유행병의 발생을 예측하고 그 영향을 최소화하기 위해 어떤 예방책을 강구할지를 결정하는 데 도움이 됩니다. 엑셀 수백만 명의 환자로부터 수집된 엑셀 데이터나 다른 데이터를 사용하여 근거에 따른 진단을 하므로 치료비를 절감합니다. 웨어러블 디바이스를 사용하면 빅데이터가 환자의 건강상태를 감시하고 의사에게 보고할 수 있습니다.
빅데이터를 통해 기업들은 경쟁사 보다 더 우위를 확보할 수 있도록, 직관적이고 실용적인 통창력을 얻을 수 있는 새로운 방법을 모색하고 있다. 빅데이터는 기업과 고객의 이해를 돕는 것 외에도 비즈니스의 효율성과 프로세스를 향상, 그리고 의사결정에도 힘을 실어줄 수 있기 때문이다.또한, 더 나은 비즈니스 분석(BI)이 필요하다는 인식도 팽배하다. BI는 통찰력을 얻고 비즈니스 계획을 수립하는데 있어, 이전의 비즈니스 개발을 지속적으로 탐구하고 조사할 수 있는 능력과 기술 및 실습을 의미한다. 결국 핵심은 데이터 생태계를 창출하기 위해 빅데이터를 전통적인 비즈니스 분석에 통합하는 것이다. 이렇게 구축된 생태계는 기업이 이미 잘 알고 있는 부분에서 성과를 유지할 수 있도록 할 뿐 아니라 새로운 통찰력도 제공해준다.