Bigdata platform이란?

dddwsd·2022년 4월 10일
0

Big data platform

빅데이터 플랫폼은 데이터의 수집, 처리, 저장 및 관리, 분석, 시각화 등의 역할 수행을 지원함으로써 새로운 insight와 비즈니스 가치 창출이 가능한 데이터 프로세스 환경을 의미한다.

빅데이터의 특징 7V

  1. Volume
    • 데이터의 크기
  2. Variety
    • 정형, 반정형, 비정형 등 다양한 종류의 데이터를 수용하는 특성
      • structured data - 정형 데이터
        • 데이터베이스, CSV, 엑셀과 같이 칼럼 단위의 명확한 delimeter와 형태가 존재하는 데이터
      • unstructured data - 비정형 데이터
        • 동영상, SNS 메세지, 사진, 오디오, 음성 데이터처럼 형태가 존재하지 않는 데이터 - NoSQL
        • 비정형 데이터를 분석함으로써 새로운 인사이트와 가치를 창출함으로써 빅데이터 탄생에 큰 역할을 했음.
      • semi-structured data - 반정형 데이터
        • XML, HTML, JSON과 같이 여러가지 형태가 있을 수 있지만, 메타데이터나 스키마가 존재하는 데이터 - NoSQL
  3. Velocity
    • 데이터가 얼마나 빠르게 처리/분석 되는지에 대한 특성
  4. Veracity
    • 데이터의 신뢰성과 타당성에 관한 특성
    • 방대한 양의 데이터를 분석하여 일정 패턴을 추출할 수 있는데, 이 패턴이 오류나 노이즈로 인한게 아니라 데이터의 특징이라고 신뢰할 수 있어야 한다.
  5. Value
    • 빅데이터는 결국 비즈니스나 연구에서 유용한 가치를 이끌어낼 수 있어야 그 의미가 있다.
  6. Validity
    • 데이터의 정확성을 의미함.
    • 예를들어 labeling이 잘못된 데이터는 validity가 없는 것이고 데이터의 규모가 아무리 크더라도 의미가 없다.
    • cf) veracity는 노이즈로 인해 개와 고양이의 특징을 이끌어내지 못하는 경우로 validity와는 조금 다름.
  7. volatility
    • 데이터가 얼마나 오래 저장될 수 있고 사용될 수 있는가에 관한 특성.
    • 빅데이터는 장기적인 관점에서 유용한 가치를 창출할 수있어야 한다.

빅데이터 수집

  • 정형, 반정형, 비정형 데이터 수집

빅데이터 처리

  • 불필요하거나 오류가 있는 데이터를 삭제
  • 반정형, 비정형 데이터는 분석에 필요없는 데이터들을 제거해야 함.

빅데이터 저장 및 관리

  • 정제된 데이터를 RDB, NoSQL DB 등에 적제

빅데이터 분석

  • 적재된 데이터를 분석하여 인사이트 도출
  1. 대화형 분석
    • 사용자가 입력한 쿼리에 반응하여 결과를 반환
  2. 배치 분석
    • 저장된 데이터를 일정한 주기로 분석
  3. 실시간 분석
    • 입력이 실시간으로 저장되고 분석하는 방법
  4. 기계 학습
    • 기계 학습 알고리즘을 이용해 예측 모델을 생성하는 방법

빅데이터 시각화

  • 분석한 데이터를 이해하기 쉽게 시각화
profile
Github - https://github.com/dddwsd

0개의 댓글