1. 빅데이터의 이해

빅데이터의 개념: 빅데이터의 정의

  • 디지털 환경에서 발생하는 대량의 모든 데이터를 의미
  • 대규모의 데이터를 저장·관리·분석할 수 있는 하드웨어 및 소프트웨어 기술, 데이터를 유통·활용하는 모든 프로세스를 포함
  • 빅데이터 플랫폼을 구성하는 하드웨어, 소프트웨어, 애플리케이션 간의 유기적 순환에 의해 가치를 창출

빅데이터의 개념: 빅데이터의 출현

  • 기술의 발달과 비용 저하, 소셜 네트워크 서비스 발달, 그림자 정보와 사물 정보 증가 등의 ICT 패러다임의 변화
  • 빅데이터에 전문 역량과 기술을 더하여 전략적으로 활용할 방법이 주목됨
  • 경제적 가치 창출, 사회 문제 해결, 새로운 ICT 패러다임 견인이라는 신가치 창출

빅데이터의 분류

정형 데이터

  • 일정한 규칙으로 체계적으로 정리된 것으로 그 자체로 해석이 가능하여 바로 활용할 수 있음

반정형 데이터

  • 고정된 필드에 저장되어 있지는 않지만 XML, HTML 등의 메타데이터와 스키마를 포함하는 것으로 파일
    형태로 저장

비정형 데이터

  • 고정된 필드나 스키마가 없는 것
  • 스마트 기기에서 페이스북, 트위터, 유튜브 등으로 생성되는 소셜 데이터
  • IoT 환경에서 생성되는 위치 정보나 센서 데이터와 같은 사물 데이터 등

정형화 정도에 따른 빅데이터 분류

빅데이터의 특징 : 데이터 측면

  • 초기에는 빅데이터의 특징을 3V로 일컬어지는 규모(Volume), 다양성(Variety), 속도(Velocity)로 나타냄
  • 빅데이터를 통한 가치 창출이 중요해지면서 정확성(veracity )과 가치(value)를 추가한 5V로 나타냄

빅데이터의 특징 : 분석 환경 측면

  • 데이터 분석 시스템의 구성 요소인 데이터, 하드웨어, 소프트웨어 분석 방법은 분석 환경에 따라 다른 특징을 나타냄

빅데이터의 특징 : 처리 방식 측면

  • 빅데이터는 기존 데이터베이스 관리 시스템(DBMS)으로 처리하던 것에 비해 100배 이상 많은 정형, 비정형 데이터를 처리

빅데이터의 가치 : 혁신과 창조의 도구

  • 빅데이터 분석이 제공하는 스마트 서비스는 기존 비즈니스에 효율화, 개인화, 그리고 미래 예측력을 통한 혁신을 제공
  • 단순히 새로운 기술이나 비즈니스 모델이 아니라 새로운 패러다임으로의 변화를 의미
  • 빅데이터 자체부터 이를 활용한 사용자 애플리케이션까지 광범위하여 빅데이터 플랫폼과 에코시스템으로 확장

빅데이터의 가치 : 사회·경제적 가치


• 빅데이터는 정치, 사회, 경제, 문화, 과학 기술 등 사회 전반에 걸쳐 가치 있는 정보를 제공
• 데이터의 도입과 활용은 산업 경쟁력 제고, 생산성 향상, 혁신을 위한 새로운 가치 창출을 할 것으로 기대

2. 빅데이터의 활용

빅데이터의 역할

  • 미래 사회의 특성은 불확실성, 리스크, 스마트, 융합으로 대변됨
  • 빅데이터를 활용해 여러 가지 가능성에 대한 시나리오 시뮬레이션을 하면 불확실한 상황 변화에 유연하게 대처 가능
  • 빅데이터에 기반한 정보 패턴 분석으로 리스크에 대응할 수 있음
  • 개인화 및 지능화된 서비스를 제공하여 삶의 질을 향상시킴

빅데이터 활용 전략 : 기업의 성공적인 빅데이터 활용

  • 리더십, 역량 관리, 기술 도입, 의사결정, 기업 문화가 필요 (맥아이,브린욜프슨)
  • 자원, 기술, 인력의 3가지
  • 요소에 대한 전략을 수립

빅데이터 활용 전략 : 활용 가능한 빅데이터 발견하기

  • 가트너: 미래 사회에는 ‘데이터 경제 시대’가 도래할 것으로 전망
  • 상호 연결과 협력으로 데이터 활용 영역이 확장되면 데이터 자원이 단계적으로 무한해질 것
  • 그에 따라 자원을 확보하는 방안도 단계적으로 확장

빅데이터 활용 전략 : 빅데이터 처리 단계와 신기술 이해하기

  • 빅데이터는 데이터의 생성 → 수집 → 저장 → 분석 → 표현의 단계를 거치며 세부 영역과 관련 기술이 개발

  • 조직과 기업의 혁신 전략으로 적용할 수 있게 빅데이터 플랫폼, 빅데이터 분석 기법 및 기술에 대한 이해가 필요

분석 기술

  • 통계, 데이터 마이닝, 머신러닝, 딥러닝, 자연어 처리, 패턴 인식, 소셜 네트워크 분석, 비디오·오디오·이미지 프로세싱 등

빅데이터의 활용·분석·처리를 포함하는 인프라

  • BI, DW, 클라우드 컴퓨팅, 분산 데이터베이스 (NoSQL), 분산 병렬 처리, 분산 파일 시스템 등

빅데이터 관련 신기술

  • 대용량 데이터 처리를 위한 분산 처리 기술인 하둡과 인메모리, 의미 분석 기술인 데이터 마이닝, 자
    연어 처리, 머신러닝, 딥 러닝, 그리고 비정형 데이터 처리를 위한 NoSQL 기술

빅데이터 활용 전략 : 데이터 과학자 역량 강화하기

  • 빅데이터 시대에는 데이터를 분석하고 관리할 수 있는 인력에 대한 중요성이 커짐
  • 대규모 데이터 속에서 숨겨진 정보를 찾아내는 데이터 과학자는 ‘빅데이터 시대의 연금술사’
  • 존 라우치 : 데이터 과학자에게 필요한 6가지 기본 자질
    ① 수학 역량
    ② 공학 역량
    ③ 데이터를 분석할 때 필수적인 가설을 세우거나 검증할 때 필요한 비판적 시각
    ④ 이를 잘 작성할 수 있는 글쓰기 역량
    ⑤ 다른 사람에게 잘 전달할 수 있는 대화 능력
    ⑥ 호기심과 개인의 행복
  • 데이터 과학자는 외부보다는 내부 인력으로 내재화하여 활용

3. 빅데이터 산업의 이해

빅데이터 산업을 설명하는 용어

빅데이터 산업은 관련된 여러 분야가 유기적으로 결합된 시스템

빅데이터 플랫폼

  • 데이터 관점에서 빅데이터를 수집·저장·분석하는 프로세스와 그에 필요한 자원의 유기적 결합을 나타냄

빅데이터 에코시스템

  • 빅데이터 플랫폼에 서비스 산업을 결합하여 고객에게 가치를 전달 하는 유기적 공동체를 나타냄

빅데이터 서비스 프레임워크

  • 빅데이터 에코시스템에서 서비스 공급자를 분류하고 서비스 유형과 수준을 파악한 것을 나타냄

빅데이터 플랫폼

데이터 플랫폼의 발전

  • 데이터 플랫폼은 정형화된 형태로 데이터를 저장하는 파일 시스템으로 시작
  • 이후에 다수가 동시에 사용할 수 있는 데이터베이스와 데이터 웨어하우스(DW)로 발전
  • 폭발적으로 증가하는 데이터를 저장 및 유통하기 위한 빅데이터 플랫폼으로 진화

빅데이터 플랫폼의 개념

  • 빅데이터를 처리하는 것
  • 대량의 데이터를 저장 및 분석, 처리할 수 있는 대용량의 고속 저장 공간과 고성능 계산 능력의 컴퓨팅
    인프라를 보유
  • 실시간으로 발생하는 빅데이터를 처리 및 분석하여 일관성을 유지하는 데이터 분석도 필요
  • 빅 데이터에서 발생하는 개인 정보를 위한 정보 보안 관리체계 지원도 필요
  • 빅데이터 플랫폼은 오픈 소스인 하둡을 근간으로 많이 사용

빅데이터 서비스 프레임워크

  • 빅데이터 서비스 프레임워크는 빅데이터 시장을 효율적으로 이해하기 위한 것
  • 에코시스템 안에서 서비스 공급자를 분류하고 서비스 유형과 수준을 파악하는 것이 필요
  • 공급하는 서비스의 유형과 수준에 따라 빅데이터 서비스 공급자와 애플리케이션 공급자로 분류

공급 서비스 유형에 따른 분류

  • 하드웨어 공급자
    - 자체 데이터센터 및 클라우드 시스템을 통해 빅데이터 서비스를 위한 인프라를 공급
  • 처리 소프트웨어 공급자
    - 서비스 소비자가 저장한 빅데이터를 효과적으로 저장 및 처리할 수 있는 소프트웨어를 제공한다.
  • 분석 소프트웨어 공급자
    - 서비스 소비자의 빅데이터를 분석할 소프트웨어를 제공

공급 서비스 수준에 따른 분류

  • 인프라 계층
    - 빅데이터를 위한 기초 작업을 담당하는 하드웨어나 운영체제를 제공
    - 자체 인프라를 구축하거나 가상화를 위한 클라우드 컴퓨팅 서비스가 여기에 속함
  • 플랫폼 계층
    - 클라우드 컴퓨팅 서비스나 하드웨어에 종속되지 않는 처리 및 분석 소프트웨어 등을 제공
  • 애플리케이션 계층
    - 소비자가 빅데이터와 소통하는 매커니즘을 제공한다. 빅데이터 처리 결과를 바탕으로 소비자가 원하는 분석 결과를 제공하거나 시장에 유통
  • 빅데이터 서비스 공급자 분류를 위한 빅데이터 서비스 프레임워크

A: 하드웨어-인프라 유형

  • 기업 등에서 자체 데이터센터를 구축할 수 있게 해주는 서비스 유형
  • 이 유형은 사적 데이터를 중심으로 하는 기업형 솔루션과 공적 데이터를 중심으로 하는 플랫폼 서비스로 구분할 수 있음
  • IBM, HP, 오라클 등의 기업용 하드웨어 솔루션 제품이 여기에 해당

B: 하드웨어-플랫폼 유형

  • 클라우드를 기반으로 서비스를 제공하는 유형
  • 기존의 클라우드 컴퓨팅 시스템을 사용해 빅데이터 서비스를 제공

C: 처리 소프트웨어-인프라 유형

  • 하드웨어와 소프트웨어를 함께 제공하는 서비스 유형
  • 대용량 데이터를 다루기 위해 필요한 분산 저장 및 병렬 처리 인프라에 처리 솔루션까지 제공
  • 기업용 솔루션 사업을 하는 오라클, IBM, HP, EMC 등의 기업에서 자사의 하드웨어와 특화된 소프트웨어를 통합해서 제공

D: 처리 소프트웨어-플랫폼 유형

  • 오픈 소스 기반의 소프트웨어 플랫폼을 제공하는 서비스 유형
  • 공급자는 오픈 소스를 기반으로 하는 빅데이터 처리 프로그램을 공급
  • 소비자는 공급자가 제공하는 클라우드 서비스를 통해 빅데이터 처리 서비스를 이용할 수 있음

E: 분석 소프트웨어-플랫폼 유형

  • 일반 소비자를 위한 분석 소프트웨어를 제공하는 서비스 유형
  • 빅데이터를 솔루션으로 상품화하고 클라우드 컴퓨팅과 결합하여 제공
  • 소비자는 자체 서버와 솔루션을 구축하는 대신에 클라우드 컴퓨팅 인프라에서 데이터를 저장 및 분석하는 프로그램을 이용할 수 있음

F: 분석 소프트웨어-애플리케이션 유형

  • 고객 맞춤형 솔루션 서비스 유형으로 데이터의 의미를 파악하고 이를 분석해서 활용하는 서비스를 제공
  • 축적된 데이터를 바탕으로 분석 후 결과의 의미를 파악하여 제공
  • 소비자의 검색 패턴을 이용해 독감 확산을 예측했던 구글 분석이 대표적 사례

4. 빅데이터 분석 방법과 접근법

빅데이터 분석 방법

분석 목적에 따른 구분

① 통계 분석
- 통계 기법에 의한 분석 방법으로 가장 대표적인 유형
② 예측 분석
- 과거의 데이터와 변수 간의 관계를 이용하여 새로운 변수를 추정
③ 데이터 마이닝 분석
- 많은 데이터 속에 숨겨진 유용한 패턴을 추출하여 분류, 군집, 연관, 이상 탐지 분석 등을 수행
④ 최적화 분석
- 주어진 제한 조건을 만족하면서 목적 함수를 최대화 또는 최소화하는 방법 을 찾는다.

하향식 접근법

  • 문제 해결 방법을 찾기 위해 필요한 데이터를 수집 및 분석하는 방식
  • 문제 해결을 위해 근본 원인을 파악하고 분석 과제를 도출한 뒤 해결 방안을 도출
  • 도출된 해결 방안에 대한 실현 가능성과 우선순위를 결정하기 위해 데이터를 수집, 가공, 분석하는 접근법
  • 분석 과제를 도출하기 위해 ‘수요 기반 분석 과제 도출 방식’을 사용
  • 데이터 분석은 문제 해결을 가능하게 하는 실행 동인 역할

상향식 접근법

  • 현재 보유하고 있는 데이터를 분석하여 의미 있는 관계나 패턴을 찾아 지식을 발견하고 문제를 해결하는 방식
  • 정형 데이터는 물론이고 다양한 원천의 비정형 데이터를 조합 하고 시각화를 통해 의미 있는 패턴을 파악한 뒤 이를
    적용하여 문제를 해결하는 데이터 기반의 접근
  • 분석 과제를 도출하기 위해 ‘데이터 주도 분석 과제 도출 방식’을 사용
  • 데이터는 추진 동인 역할

프로토타이핑 접근법

  • 빅데이터 환경의 불확실성을 고려한 방식
  • 소비자의 요구 사항이나 데이터를 규정하기가 어렵고 데이터 원천도 명확히 파악하기 어려운 경우 사용
  • 일단 프로토타입을 만들어 분석을 시도한 뒤 결과를 확인하고 개선하고 이를 반복

5. 빅데이터 분석을 위한 데이터 과학 방법론

데이터 과학 방법론

  • 여섯 단계로 구성되며 필요에 따라 특정 단계를 반복해서 수행 가능

[1단계] 연구 목표 설정

  • 프로젝트와 관련된 모든 참여자가 연구 목표를 함께 정의하고 산출물과 일정 등의
    계획에 합의한 뒤 프로젝트 헌장 작성

[2단계] 데이터 수집

  • 프로젝트에 필요한 데이터의 위치와 형태를 확인하고 원시 데이터를 수집
    - 필요한 데이터를 수집할 때는 이미 가지고 있는 내부 데이터베이스나 데이터 저장소를 이용
    - 외부에서 수집하는 경우 다양한 수집 기술을 활용할 수 있음
    - 수집할 데이터의 유형과 종류를 파악한 뒤 그에 맞는 수집 기술을 선택해서 사용

[3단계] 데이터 준비

  • 수집한 원시 데이터의 품질을 높이기 위해 정제 후 사용 가능한 형태로 가공하는 단계
  • 수집한 데이터를 다음 단계에서 사용할 수 있게 오류를 여과 하거나 수정하여 정제
  • 필요에 따라서는 데이터를 통합하거나 형태를 변환

[4단계] 데이터 탐색

  • 데이터와 변수 간의 관계나 상호 작용을 이해하기 위한 단계
  • 변수 간의 관련성, 데이터의 분포, 편차, 패턴 존재 여부를 확인하는 탐색적 데이터 분석(EDA)이라고도 함
  • 데이터를 쉽게 이해하기 위해 꺾은선 그래프나 히스토그램, 분포도 등과 같은 그래픽 기법을 많이 사용

[5단계] 데이터 모델링

  • 이전 단계에서 얻은 데이터 탐색 결과로 프로젝트에 대한 답을 찾는 단계
  • 변수를 선택하여 모델을 구성하고 실행 및 평가하는 과정을 반복 수행하여
    문제 해결 모델을 완성
  • 이때 분석하려는 데이터의 특성과 목적에 따라 모델 유형을 선택할 수 있음

[6단계] 결과 발표 및 분석 자동화

  • 프로젝트 수행 결과가 연구 목표를 달성했는지를 이해 당사자, 특히 의사 결정자에게 이해시키고 가능하다면 이후의 유사 프로젝트 수행을 위해 분석 과정을 자동화하는 단계
  • [1단계]에서 작성한 프로젝트 헌장에 명시된 목표를 달성했는지 산출물이 제대로 작성되었는지, 일정과 예산은 계획대로 진행되었는지 여부를 확인
  • 모든 참여자를 대상으로 분석 결과를 발표
  • 분석 과정을 재사용할 수 있도록 자동화
profile
Nil Desperandum <절대 절망하지 마라>

0개의 댓글

Powered by GraphCDN, the GraphQL CDN