모든 데이터는 과학
을 기반으로 한다.
과학
: 체계성 + 객관성
: 다른사람이 내가 만든 모델을 돌려도 같은 결과값이 나와야 한다.(체계성)
예측을 하지만 객관적이어야 한다.(이와 반대로 점쟁이는 객관성x)
데이터 과학 : 문제의 원인(변인, variable = feature)을 발견, 원인들간의 관계성을 파악 및 필요시 예측. 데이터 품질이 낮으면 신뢰도 낮다.
데이터
: 추론과 추정의 근거를 이루는 사실. 과거의 관념적이고 추상적인 개념에서 기술적이고 사실적인 의미로 변화. 단순 객체로서의 가치뿐 아니라 다른 객체와의 상호관계 속에서 가치를 갖는다.
구분 | 형태 | 특징 |
---|---|---|
정성적 데이터 | 언어, 문자 등 | 저장, 검색, 분석에 많은 비용 소모 |
정량적 데이터 | 수치, 도형 등 | 정형화가 되어 있어 분석에 비용 소모 감소 |
정성적
: 비정형 데이터 + 주관적 내용 + 통계 분석이 어렵다.정량적
: 정형 데이터 + 객관적 내용 + 통계 분석이 용이하다.구분 | 의미 | 특징 |
---|---|---|
암묵지 | 학습, 경험을 통해 개인에게 체화, but 겉으로는 드러나지 않음 | 다른 사람에게 공유가 어렵다. |
형식지 | 문서나 메뉴얼처럼 형상화 | 전달과 공유가 용이 |
암묵지
: 내면화(개인에게 축적) -> 공통화(조직의 지식으로)
형식지
: 표출화(언어, 기호로) -> 연결화(개인의 지식으로)
Signals
: -5v, 5v로 이루어져 있으며 시그널을 데이터로 변환할 수 있다.Data
: 가장 기초적인 정보. ex) 학생 키, A마트에서의 과자 가격 등등..., 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실Information
: 데이터의 가공 처리와 데이터간 연관관계 속에서 가치있는 정보로 제작 Knowledge
: 데이터를 구조화하여 유의미한 정보를 분류하고, 개인적인 경험을 결합시켜 고유의 지식으로 내재화Wisdom
: 지식의 축적과 아이디어가 결합된 창의적인 산물D->I->K->W로 가공을 하게 되면 다시 역방향으로는 돌아갈 수 없다.
예를 들어, Data를 가공하여 Information을 얻게 되면 다시 Information으로부터 Data를 얻기는 불가능
과거부터 분석해왔기 때문에 보통 알고 있는 데이터는 일반적인 데이터, 우리가 발견해야 할 것은 극히 양이 적은 가치 있는 데이터
ex) ShoePik
단순히 상품판매를 위한 기업이면 가치 낮다. 그러나 ShoePik이란 어플을 통해 대다수의 국민의 발 사이즈를 안다면 기업의 가치는 상승
즉, 좋은 품질 + 낮은 가격이 기업의 성공을 보장하는 것이 아니라 다양한 데이터를 가지고 있느냐로 기업의 가치를 판단할 수 있다.
The data economy demands a new approach to antitrust rules
반독점
은 성숙한 산업을 의미한다. 누구나 접근할 수 있다.
from The economist