데이터의 정의
- 데이터란
- 현실 세계로부터 관찰되거나 측정되어 수집된 사실 또는 값
- 의미 있는 정보를 가진 모든 값
- 사람이나 자동기기가 생성 또는 처리하는 형태로 표시된 것
- 어떠한 사실, 현상 또는 관측 결과로 얻은 수치나 값 등 실체의 속성을 숫자, 문자, 기호 등으로 표현한 것
- 현상이나 사실을 기술하거나, 추론과 추정의 근거를 이루는 사실로 사용된다
- 데이터의 존재적 특성: 객관적 사실을 의미하는 것
- 데이터의 당위적 특성: 추론, 예측, 전망, 추정을 위한 근거
- 정성적 데이터: 언어, 문자 등
- 정량적 데이터: 수치, 도형, 기호 등
- 데이터를 어떻게 활용하는지에 따라 정보, 지식, 지혜로 구분
- 데이터(Data): 가공되기 전의 객관적 수치 또는 기호
- 정보(Information): 데이터의 가공 및 처리를 통해 도출된 현상
- 지식(Knowledge): 정보의 구조화를 통해 도출되는 고유의 아이디어
- 지혜(Wisdom): 지식의 축적과 아이디어가 결합된 창의적 산물
- 지식은 그 존재의 형태에 따라 암묵지와 형식지로 구분
- 암묵지: 개인에게 축적된 내면화된 지식으로 공통화, 내면화 과정이 작용됨
- 형식지: 언어나 문서로 표준화 및 형상화된 지식으로 표출화, 연결화 과정이 작용됨
- 암묵지와 형식지는 다음과 같이 지식의 변환 과정으로 상호 작용을 한다.
- 공통화(암묵지 → 암묵지)
- 개인 혹은 집단이 경험을 공유함으로써 지식 공유
- 표출화(암묵지 → 형식지)
- 개인의 지식을 공유하기 위해 문서나 매체로 표현
- 연결화(형식지 → 형식지)
- 개인 혹은 집단이 형식지를 상호결합하면서 새로운 지식 창조
- 내면화(형식지 → 암묵지)
- 교육, 훈련 등으로 형식지를 개인이 암묵지로 체득
빅데이터의 정의
- 빅데이터란
- 일반적으로 관리할 수 있는 규모를 넘어서는 데이터
- 단순한 데이터뿐만 아니라 다양한 원천으로부터 저렴하게 가치를 추출하여 분석을 지원하는 기술 및 아키텍처
- 분석 가치 에스컬레이터
- 가트너는 데이터 분석을
- 묘사 분석
- 진단 분석
- 예측 분석
- 처방 분석
의 4단계로 구분하였다.
- 단계가 지날수록 분석의 난이도가 높아지며, 분석을 통해 더 많은 가치를 얻을 수 있음을 의미한다.
빅데이터의 특징
- 3V: Volume(규모), Variety(다양성), Velocity(속도)
- 5V: + Veracity(신뢰성), Value(가치)
*Validity(정확성), Volatility(휘발성), Visualization(시각화), Variability(가변성) 등이 추가되기도 한다.
빅데이터가 만드는 변화
- 데이터를 수집, 저장, 처리, 분석하는 아키텍처와 기술이 발전함에 따라 데이터로부터 정보를 추출하는 비용효율성이 높아졌다.
- 사전처리 → 사후처리
- 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다
- 표본조사 → 전수조사
- 질 → 양
- 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적 영향
- 인과관계(인사이트) → 상관관계(데이터)