빅데이터 개요
빅데이터란 무엇이며 그 특징이 무엇인지 개괄적으로 살펴보고자 한다.
여기에 기술된 내용들은 빅데이터가 산업에 미치는 영향을 초점으로 작성된 것이다.
빅데이터와 관련된 수학, 통계, 컴퓨터 공학 지식이 없어도 상식적인 수준에서 이해할 수 있는 내용이다.
빅데이터의 정의
빅데이터란 기존의 데이터보다 방대하여 기존의 방법이나 도구로 수집, 저장, 분석 등이 어려운 정형 및 비정형 데이터를 의미한다.
- 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.(McKinsey, 2011)
- 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.(IDC, 2011)
- 빅데이터는 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내며, 나아가 이를 활용해 시장과 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 것이다.(Mayer-Schonberger&Cukier,2013)
빅데이터의 등장과 변화
1) 빅데이터의 등장 배경
디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술이 빠르게 발전하면서 데이터를 활용할 수 있는 분야가 확대되어왔다. 기업에서는 온오프라인 고객 데이터의 축적으로 데이터에서 가치를 발굴해 새로운 성장동력으로 활용하고 있다. 학계에서는 인간 게놈 프로젝트, 기후 관찰 등 거대 데이터를 다루는 학문 분야가 확산되면서 필요한 기술 아키텍처 및 분석 기법들이 발전하고 있다.
- 데이터의 변화: 3V(Volume, Variety, Velocity)
- 기술의 변화: 새로운 데이터 처리, 저장, 분ㅅ헉 기술 및 아키텍쳐, 클라우드 컴퓨팅
- 인재,조직의 변화: 데이터 사이언티스트, 데이터 엔지니어링 등과 같은 새로운 인재 필요, 데이터 중심 조직.
➡️ 기존의 방식으로는 얻기 힘들었던 인사이트 및 가치 창출
➡️ 시장, 사업반식, 사회, 정부 등에서 변화와 혁신 주도
2) 빅데이터의 등장으로 인한 변화
- 데이터 처리 시점이 사전처리(pre-processing)에서 사후 처리(post-processing)으로 이동.
: 기존에 필요하던 정보만 수집하던 시스템에서 가능한 많은 데이터를 모으고 조합하여 정보를 얻는 방식으로 변화
- 데이터 처리 범주가 표본조사에서 전수조사로 확대.
: 기술 발전으로 인한 데이터 처리비용 감소로 표본조사가 아닌 전수조사를 통해 패턴이나 정보를 발견하는 방식으로 변화
- 데이터의 가치 판단 기준이 질(quality)뿐만 아니라 양(quantity)으로도 평가할 수 있게 됨.
: 데이터의 양의 즈가가 전체적으로 좋은 결과를 산출하는 데에 긍정적인 영향을 미친다는 추론이 바탕이 됨.
- 데이터를분석하는 방향이 이론적 인과관계 중심에서 단순한 상관관계로 변화되는 경향이 있음.
: 데이터 기반의 상관관계 분석으로 특정 현상의 발생 가능성을 포착하여 대응하는 방식으로 변화.
2) 빅데이터의 특징
빅데이터라는 용어를 초기에 사용한 Gartner 그룹은 3V로 빅데이터의 특징을 설명했으며 최근에는 빅데이터 분석을 통해 얻을 수 있는 가치와 데이터에 대한 품질의 중요성이 강조되고 있음.
3V
- Volume : 규모, 데이터의 양이 급격하게 증가(대용량화), 기존 데이터 관리 시스템의 성능적 한계 도달
- Variety : 유형, 데이터의 종류와 근원 확대(다양화), 정형 데이터 외 반정형 및 비정형 데이터로 확장
- Velocity : 속도, 데이터 수집 및 처리 속도의 고속화, 대용량 데이터의 신속하고 즉각적인 분석 요구
여기에 두 가지 V가 더해져서 5V로 보기도 한다.
- Veracity : 품질, 데이터의 신뢰성, 정확성, 타당성 보장이 필수, 고품질의 데이터에서 고수준 인사이트 도출 가능
- Value : 가치, 대용량의 데이터 안에 숨겨진 가치 발굴이 중요, 다른 데이터들과의 연계 시 가치가 배로 증대.
3) 빅데이터의 활용
빅테이터를 활용하기 위해서는 크게 세 가지 요소가 필요하다고 한다.
-
자원(Resource, 빅데이터)
: 데이터 자원 확보, 데이터 품질 확보
정형, 반정형, 비정형 데이터를 실시간으로 수집한다.
수집된 데이터를 전처리 과정을 통해 품질을 향상시킨다.
-
기술(Technology, 빅데이터플랫폼과 AI)
: 데이터 저장 및 관리 기술(ETL, NoSQL),대용량 데이터 처리(Hadoop, MapReduce), 빅데이터 분석(정형데이터, 비정형데이터), 시각화(Visualization)
분산 파일 시스템을 통해 대용량 데이터를 분산 처리한다.
데이터마이닝 등을 통해 데이터를 분석 및 시각화한다.
데이터를 스스로 학습, 처리할 수 있는 AI 기술을 활용한다.
-
인력(People, 알고리즈미스트와 데이터사이언티스트)
통계학, 수학, 컴퓨터공학, 경영학 분야 전문지식을 갖춘다.
도메인 지식을 습득하여 데이터 분석 및 결과를 해석한다.
빅데이터의 가치
1) 빅데이터를 활용했을 때의 기대효과
-
기존의 사업자에게 경쟁 우위 제공
: 시장에 새롭게 진입하려는 잠재적 경쟁자에게는 진입장벽, 고객 세분화와 맞춤형 개인화 서비스 제공, 시뮬레이션을 통한 수요 포착과 변수 탐색으로 경쟁력을 강화하고 비즈니스 모델이나 제품 또는 서비스의 혁신을 가져옴.
-
빅데이터는 알고리즘 기반으로 의사결정을 지원하거나 이를 대신함.
-
빅데이터는 투명성을 높여 R&D 및 관리 효율성을 제고한다.
2) 빅데이터의 가치 측정의 어려움
특정 데이터의 가치는 그 데이터의 활용 및 가치 창출 방식과 분석 기술의 발전 여부 등에 따라 달라질 수 있어 이를 측정하고 판단하는 것은 결코 쉬운 일은 아니다.
- 데이터 활용 방식
: 데이터를 재사용하거나 재결합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어떻게 활용할지 알 수 없기 때문에 그 가치를 측정하기 어렵다.
- 가치 창출 방식
: 데이터는 어떠한 목적을 갖고서 어떻게 가공하는가에 따라 기존에 없던 가치를 창출할 수도 있어 사전에 그 가치를 측정하기 어렵다.
- 분석 기술 발전
: 데이터는 지금의 기술 상황에서는 가치가 없어 보일지라도 새로운 분석 기법이 등장할 경우 큰 가치를 찾아낼 수 있으므로 당장 그 가치를 측정하기 어렵다.
- 데이터 수집 원가
: 데이터는 달성하려는 목적에 따라 수집하거나 가공하는 비용이 상황에 따라 달라질 수 있어 그 가치를 측정하기 어렵다.
3) 빅데이터의 영향
개인, 기업, 정부차원의 영향을 미친다.
활용 목적에 따라 상이하나 개인의 업무의 스마트화, 디지털화로 영향을 주고,
기업에게 혁신, 경쟁력 강화, 생산성 향상의 근간이 되며,
정부에게 환경 탐색과 상황 분석, 미래 대응 수단을 제공한다.
데이터 산업의 이해
1) 데이터 산업의 진화
데이터 산업은 데이터 처리-통합-분석-연결-권리 시대로 진화하고 있다.
- 데이터 통합 시대까지 데이터의 역할은 거래를 정확하게 기록하고 거래의 자동화를 지원하는 것이었다. 데이터 분석 수준이 향상되면서 데이터의 자원 활용이 가능해졌다.