- 디지털 환경에서 발생하는 대량의 모든 데이터를 의미
- 대규모의 데이터를 저장·관리·분석할 수 있는 하드웨어 및 소프트웨어 기술, 데이터를 유통·활용하는 모든 프로세스를 포함
- 빅데이터 플랫폼을 구성하는 하드웨어, 소프트웨어, 애플리케이션 간의 유기적 순환에 의해 가치를 창출
- 기술의 발달과 비용 저하, 소셜 네트워크 서비스 발달, 그림자 정보와 사물 정보 증가 등의 ICT 패러다임의 변화
- 빅데이터에 전문 역량과 기술을 더하여 전략적으로 활용할 방법이 주목됨
- 경제적 가치 창출, 사회 문제 해결, 새로운 ICT 패러다임 견인이라는 신가치 창출
- 일정한 규칙으로 체계적으로 정리된 것으로 그 자체로 해석이 가능하여 바로 활용할 수 있음
반정형 데이터
- 고정된 필드에 저장되어 있지는 않지만 XML, HTML 등의 메타데이터와 스키마를 포함하는 것으로 파일
형태로 저장비정형 데이터
- 고정된 필드나 스키마가 없는 것
- 스마트 기기에서 페이스북, 트위터, 유튜브 등으로 생성되는 소셜 데이터
- IoT 환경에서 생성되는 위치 정보나 센서 데이터와 같은 사물 데이터 등
- 초기에는 빅데이터의 특징을 3V로 일컬어지는 규모(Volume), 다양성(Variety), 속도(Velocity)로 나타냄
- 빅데이터를 통한 가치 창출이 중요해지면서 정확성(veracity )과 가치(value)를 추가한 5V로 나타냄
- 데이터 분석 시스템의 구성 요소인 데이터, 하드웨어, 소프트웨어 분석 방법은 분석 환경에 따라 다른 특징을 나타냄
- 빅데이터는 기존 데이터베이스 관리 시스템(DBMS)으로 처리하던 것에 비해 100배 이상 많은 정형, 비정형 데이터를 처리
- 빅데이터 분석이 제공하는 스마트 서비스는 기존 비즈니스에 효율화, 개인화, 그리고 미래 예측력을 통한 혁신을 제공
- 단순히 새로운 기술이나 비즈니스 모델이 아니라 새로운 패러다임으로의 변화를 의미
- 빅데이터 자체부터 이를 활용한 사용자 애플리케이션까지 광범위하여 빅데이터 플랫폼과 에코시스템으로 확장
• 빅데이터는 정치, 사회, 경제, 문화, 과학 기술 등 사회 전반에 걸쳐 가치 있는 정보를 제공
• 데이터의 도입과 활용은 산업 경쟁력 제고, 생산성 향상, 혁신을 위한 새로운 가치 창출을 할 것으로 기대
- 미래 사회의 특성은 불확실성, 리스크, 스마트, 융합으로 대변됨
- 빅데이터를 활용해 여러 가지 가능성에 대한 시나리오 시뮬레이션을 하면 불확실한 상황 변화에 유연하게 대처 가능
- 빅데이터에 기반한 정보 패턴 분석으로 리스크에 대응할 수 있음
- 개인화 및 지능화된 서비스를 제공하여 삶의 질을 향상시킴
- 리더십, 역량 관리, 기술 도입, 의사결정, 기업 문화가 필요 (맥아이,브린욜프슨)
- 자원, 기술, 인력의 3가지
- 요소에 대한 전략을 수립
- 가트너: 미래 사회에는 ‘데이터 경제 시대’가 도래할 것으로 전망
- 상호 연결과 협력으로 데이터 활용 영역이 확장되면 데이터 자원이 단계적으로 무한해질 것
- 그에 따라 자원을 확보하는 방안도 단계적으로 확장
빅데이터는 데이터의 생성 → 수집 → 저장 → 분석 → 표현의 단계를 거치며 세부 영역과 관련 기술이 개발
조직과 기업의 혁신 전략으로 적용할 수 있게 빅데이터 플랫폼, 빅데이터 분석 기법 및 기술에 대한 이해가 필요
분석 기술
- 통계, 데이터 마이닝, 머신러닝, 딥러닝, 자연어 처리, 패턴 인식, 소셜 네트워크 분석, 비디오·오디오·이미지 프로세싱 등
빅데이터의 활용·분석·처리를 포함하는 인프라
- BI, DW, 클라우드 컴퓨팅, 분산 데이터베이스 (NoSQL), 분산 병렬 처리, 분산 파일 시스템 등
빅데이터 관련 신기술
- 대용량 데이터 처리를 위한 분산 처리 기술인 하둡과 인메모리, 의미 분석 기술인 데이터 마이닝, 자
연어 처리, 머신러닝, 딥 러닝, 그리고 비정형 데이터 처리를 위한 NoSQL 기술
- 빅데이터 시대에는 데이터를 분석하고 관리할 수 있는 인력에 대한 중요성이 커짐
- 대규모 데이터 속에서 숨겨진 정보를 찾아내는 데이터 과학자는 ‘빅데이터 시대의 연금술사’
- 존 라우치 : 데이터 과학자에게 필요한 6가지 기본 자질
① 수학 역량
② 공학 역량
③ 데이터를 분석할 때 필수적인 가설을 세우거나 검증할 때 필요한 비판적 시각
④ 이를 잘 작성할 수 있는 글쓰기 역량
⑤ 다른 사람에게 잘 전달할 수 있는 대화 능력
⑥ 호기심과 개인의 행복- 데이터 과학자는 외부보다는 내부 인력으로 내재화하여 활용
빅데이터 산업은 관련된 여러 분야가 유기적으로 결합된 시스템
빅데이터 플랫폼
- 데이터 관점에서 빅데이터를 수집·저장·분석하는 프로세스와 그에 필요한 자원의 유기적 결합을 나타냄
빅데이터 에코시스템
- 빅데이터 플랫폼에 서비스 산업을 결합하여 고객에게 가치를 전달 하는 유기적 공동체를 나타냄
빅데이터 서비스 프레임워크
- 빅데이터 에코시스템에서 서비스 공급자를 분류하고 서비스 유형과 수준을 파악한 것을 나타냄
- 데이터 플랫폼은 정형화된 형태로 데이터를 저장하는 파일 시스템으로 시작
- 이후에 다수가 동시에 사용할 수 있는 데이터베이스와 데이터 웨어하우스(DW)로 발전
- 폭발적으로 증가하는 데이터를 저장 및 유통하기 위한 빅데이터 플랫폼으로 진화
빅데이터 플랫폼의 개념
- 빅데이터를 처리하는 것
- 대량의 데이터를 저장 및 분석, 처리할 수 있는 대용량의 고속 저장 공간과 고성능 계산 능력의 컴퓨팅
인프라를 보유- 실시간으로 발생하는 빅데이터를 처리 및 분석하여 일관성을 유지하는 데이터 분석도 필요
- 빅 데이터에서 발생하는 개인 정보를 위한 정보 보안 관리체계 지원도 필요
- 빅데이터 플랫폼은 오픈 소스인 하둡을 근간으로 많이 사용
- 빅데이터 서비스 프레임워크는 빅데이터 시장을 효율적으로 이해하기 위한 것
- 에코시스템 안에서 서비스 공급자를 분류하고 서비스 유형과 수준을 파악하는 것이 필요
- 공급하는 서비스의 유형과 수준에 따라 빅데이터 서비스 공급자와 애플리케이션 공급자로 분류
공급 서비스 유형에 따른 분류
- 하드웨어 공급자
- 자체 데이터센터 및 클라우드 시스템을 통해 빅데이터 서비스를 위한 인프라를 공급- 처리 소프트웨어 공급자
- 서비스 소비자가 저장한 빅데이터를 효과적으로 저장 및 처리할 수 있는 소프트웨어를 제공한다.- 분석 소프트웨어 공급자
- 서비스 소비자의 빅데이터를 분석할 소프트웨어를 제공공급 서비스 수준에 따른 분류
- 인프라 계층
- 빅데이터를 위한 기초 작업을 담당하는 하드웨어나 운영체제를 제공
- 자체 인프라를 구축하거나 가상화를 위한 클라우드 컴퓨팅 서비스가 여기에 속함- 플랫폼 계층
- 클라우드 컴퓨팅 서비스나 하드웨어에 종속되지 않는 처리 및 분석 소프트웨어 등을 제공- 애플리케이션 계층
- 소비자가 빅데이터와 소통하는 매커니즘을 제공한다. 빅데이터 처리 결과를 바탕으로 소비자가 원하는 분석 결과를 제공하거나 시장에 유통
- 빅데이터 서비스 공급자 분류를 위한 빅데이터 서비스 프레임워크
A: 하드웨어-인프라 유형
- 기업 등에서 자체 데이터센터를 구축할 수 있게 해주는 서비스 유형
- 이 유형은 사적 데이터를 중심으로 하는 기업형 솔루션과 공적 데이터를 중심으로 하는 플랫폼 서비스로 구분할 수 있음
- IBM, HP, 오라클 등의 기업용 하드웨어 솔루션 제품이 여기에 해당
B: 하드웨어-플랫폼 유형
- 클라우드를 기반으로 서비스를 제공하는 유형
- 기존의 클라우드 컴퓨팅 시스템을 사용해 빅데이터 서비스를 제공
C: 처리 소프트웨어-인프라 유형
- 하드웨어와 소프트웨어를 함께 제공하는 서비스 유형
- 대용량 데이터를 다루기 위해 필요한 분산 저장 및 병렬 처리 인프라에 처리 솔루션까지 제공
- 기업용 솔루션 사업을 하는 오라클, IBM, HP, EMC 등의 기업에서 자사의 하드웨어와 특화된 소프트웨어를 통합해서 제공
D: 처리 소프트웨어-플랫폼 유형
- 오픈 소스 기반의 소프트웨어 플랫폼을 제공하는 서비스 유형
- 공급자는 오픈 소스를 기반으로 하는 빅데이터 처리 프로그램을 공급
- 소비자는 공급자가 제공하는 클라우드 서비스를 통해 빅데이터 처리 서비스를 이용할 수 있음
E: 분석 소프트웨어-플랫폼 유형
- 일반 소비자를 위한 분석 소프트웨어를 제공하는 서비스 유형
- 빅데이터를 솔루션으로 상품화하고 클라우드 컴퓨팅과 결합하여 제공
- 소비자는 자체 서버와 솔루션을 구축하는 대신에 클라우드 컴퓨팅 인프라에서 데이터를 저장 및 분석하는 프로그램을 이용할 수 있음
F: 분석 소프트웨어-애플리케이션 유형
- 고객 맞춤형 솔루션 서비스 유형으로 데이터의 의미를 파악하고 이를 분석해서 활용하는 서비스를 제공
- 축적된 데이터를 바탕으로 분석 후 결과의 의미를 파악하여 제공
- 소비자의 검색 패턴을 이용해 독감 확산을 예측했던 구글 분석이 대표적 사례
① 통계 분석
- 통계 기법에 의한 분석 방법으로 가장 대표적인 유형
② 예측 분석
- 과거의 데이터와 변수 간의 관계를 이용하여 새로운 변수를 추정
③ 데이터 마이닝 분석
- 많은 데이터 속에 숨겨진 유용한 패턴을 추출하여 분류, 군집, 연관, 이상 탐지 분석 등을 수행
④ 최적화 분석
- 주어진 제한 조건을 만족하면서 목적 함수를 최대화 또는 최소화하는 방법 을 찾는다.하향식 접근법
- 문제 해결 방법을 찾기 위해 필요한 데이터를 수집 및 분석하는 방식
- 문제 해결을 위해 근본 원인을 파악하고 분석 과제를 도출한 뒤 해결 방안을 도출
- 도출된 해결 방안에 대한 실현 가능성과 우선순위를 결정하기 위해 데이터를 수집, 가공, 분석하는 접근법
- 분석 과제를 도출하기 위해 ‘수요 기반 분석 과제 도출 방식’을 사용
- 데이터 분석은 문제 해결을 가능하게 하는 실행 동인 역할
상향식 접근법
- 현재 보유하고 있는 데이터를 분석하여 의미 있는 관계나 패턴을 찾아 지식을 발견하고 문제를 해결하는 방식
- 정형 데이터는 물론이고 다양한 원천의 비정형 데이터를 조합 하고 시각화를 통해 의미 있는 패턴을 파악한 뒤 이를
적용하여 문제를 해결하는 데이터 기반의 접근- 분석 과제를 도출하기 위해 ‘데이터 주도 분석 과제 도출 방식’을 사용
- 데이터는 추진 동인 역할
프로토타이핑 접근법
- 빅데이터 환경의 불확실성을 고려한 방식
- 소비자의 요구 사항이나 데이터를 규정하기가 어렵고 데이터 원천도 명확히 파악하기 어려운 경우 사용
- 일단 프로토타입을 만들어 분석을 시도한 뒤 결과를 확인하고 개선하고 이를 반복
- 여섯 단계로 구성되며 필요에 따라 특정 단계를 반복해서 수행 가능
[1단계] 연구 목표 설정
- 프로젝트와 관련된 모든 참여자가 연구 목표를 함께 정의하고 산출물과 일정 등의
계획에 합의한 뒤 프로젝트 헌장 작성[2단계] 데이터 수집
- 프로젝트에 필요한 데이터의 위치와 형태를 확인하고 원시 데이터를 수집
- 필요한 데이터를 수집할 때는 이미 가지고 있는 내부 데이터베이스나 데이터 저장소를 이용
- 외부에서 수집하는 경우 다양한 수집 기술을 활용할 수 있음
- 수집할 데이터의 유형과 종류를 파악한 뒤 그에 맞는 수집 기술을 선택해서 사용[3단계] 데이터 준비
- 수집한 원시 데이터의 품질을 높이기 위해 정제 후 사용 가능한 형태로 가공하는 단계
- 수집한 데이터를 다음 단계에서 사용할 수 있게 오류를 여과 하거나 수정하여 정제
- 필요에 따라서는 데이터를 통합하거나 형태를 변환
[4단계] 데이터 탐색
- 데이터와 변수 간의 관계나 상호 작용을 이해하기 위한 단계
- 변수 간의 관련성, 데이터의 분포, 편차, 패턴 존재 여부를 확인하는 탐색적 데이터 분석(EDA)이라고도 함
- 데이터를 쉽게 이해하기 위해 꺾은선 그래프나 히스토그램, 분포도 등과 같은 그래픽 기법을 많이 사용
[5단계] 데이터 모델링
- 이전 단계에서 얻은 데이터 탐색 결과로 프로젝트에 대한 답을 찾는 단계
- 변수를 선택하여 모델을 구성하고 실행 및 평가하는 과정을 반복 수행하여
문제 해결 모델을 완성- 이때 분석하려는 데이터의 특성과 목적에 따라 모델 유형을 선택할 수 있음
[6단계] 결과 발표 및 분석 자동화
- 프로젝트 수행 결과가 연구 목표를 달성했는지를 이해 당사자, 특히 의사 결정자에게 이해시키고 가능하다면 이후의 유사 프로젝트 수행을 위해 분석 과정을 자동화하는 단계
- [1단계]에서 작성한 프로젝트 헌장에 명시된 목표를 달성했는지 산출물이 제대로 작성되었는지, 일정과 예산은 계획대로 진행되었는지 여부를 확인
- 모든 참여자를 대상으로 분석 결과를 발표
- 분석 과정을 재사용할 수 있도록 자동화