1. 빅데이터 분석 기획- 빅데이터의 이해 (1)

해리 퍼터·2024년 8월 16일

1. 데이터의 특성

  • 정성적 데이터 (qualitative data)
    • 언어, 문자 등 비정형 데이터
    • 주관적 내용
    • 저장, 검색, 분석에 많은 비용이 소모됨
    • 통계 분석이 어려움
  • 정량적 데이터 (quantitative data)
    • 수치, 도형, 기호 등 정형 데이터
    • 객관적 내용
    • 정형화된 데이터로 비용 소모가 적음
    • 통계 분석이 용이함

2. 지식의 구분

  • 암묵지 (tacit knowledge)
    • 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 (자전거 타기 등)
    • 사회적으로 중요하지만 다른 사람에게 공유되기 어려움
  • 형식지 (explicit knowledge)
    • 문서나 매뉴얼처럼 형상화된 지식 (교과서, db 등)
    • 전달과 공유가 용이함


3. DIKW

[출처]:(https://www.slideegg.com/dikw-model)

  • Data
    • 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실
  • Information
    • 데이터의 가공, 처리와 데이터 간 연관 관계 속에서 의미가 도출된 것
  • Knowledge
    • 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것
  • Wisdom
    • 지식의 축적과 아이디어가 결합된 창의적인 산물

4. 데이터베이스의 특징

  • 통합된 데이터 - 동일한 내용의 데이터가 중복되지 않다는 것을 의미

  • 저장된 데이터 - 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미

  • 공용 데이터 - 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미

  • 변화되는 데이터 - 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 정확한 현재의 데이터를 유지해야 함


5. 빅데이터의 정의

다양한 형태의 데이터를 목적에 맞게 분석함으로써 해당 분야의 필요 지식을 추출하여 전략적 의사 결정에 활용하거나 문제 해결에 이용하는 행위

데이터의 양을 측정하기 위한 바이트의 크기

빅데이터의 주요 특징

  • 가트너 3V

    • Volume (규모)

      • 빅데이터의 가장 기본적인 특징으로 저장되는 물리적 데이터의 양이 매우 많음을 의미
    • Variety (다양성)

      • 틀에 짜인 듯 형식이 정해져 있는 정형 데이터 뿐만 아니라 사진, 오디오, 영상, sns, 위치, 문서 등과 같이 구조와 형태를 정할 수 없거나 또는 짜여진 틀에 넣기 어려운 비정형 데이터도 포함
    • Velocity (속도)

      • 데이터가 새로 생성되는 속도가 매우 빠르며, 연속적으로 생성되는 센서 데이터들이 실시간으로 전송되어 이를 처리하고 저장하거나 분석하는 속도 또한 매우 빠르게 이루어짐
  • 그 이외 4V
    - Veracity (진실성)
    - Value (가치)
    - Validity (정확성)
    - Volatility (휘발성)


6. 빅데이터가 만들어내는 본질적인 변화

  • 사전 처리 → 사후 처리

  • 표본 조사 → 전수 조사

    • 표본 조사 : 관심 대상인 집단에서 부분 집단을 추출 후 부분 집단을 분석하여 이를 통해 모수를 추정하는 방식
      • 모집단 : 통계학에서 관심의 대상이 되는 또는 조사의 대상이 되는 모든 개체 값의 집합
      • 모수 : 모집단의 특성치
    • 전수 조사 : 관심 대상인 집단 안의 모든 단위들을 전부 조사하여 모수를 추정하는 방식
  • 질 → 양

  • 인과관계 → 상관 관계


7. 빅데이터의 가치

  • 가트너가 빅데이터의 가치를 묘사 분석, 진단 분석, 예측 분석, 처방 분석의 4단계로 정의한 기법
  • 분석 가치 에스컬레이터에서는 높은 난도를 수반하는 데이터 분석이 더 많은 가치를 창출
  • 묘사 분석 : 과거에는 어떤 일이 일어났고, 현재는 무슨 일이 일어나고 있는지 확인
  • 진단 분석 : 묘사 분석단계의 데이터를 기반으로 왜 발생했는지 이유를 확인
  • 예측 분석 : 데이터를 통해 기업의 미래, 고객의 행동을 예측
  • 처방 분석 : 예측을 바탕으로 최적화하여 무엇을 해야 할 것 인지를 확인하는 과정

0개의 댓글