데이터 과학이란?

아따맘마·2020년 11월 10일
0

빅데이터

목록 보기
2/9

Data Science

모든 데이터는 과학을 기반으로 한다.
과학 : 체계성 + 객관성
: 다른사람이 내가 만든 모델을 돌려도 같은 결과값이 나와야 한다.(체계성)
예측을 하지만 객관적이어야 한다.(이와 반대로 점쟁이는 객관성x)

  • 데이터 과학 : 문제의 원인(변인, variable = feature)을 발견, 원인들간의 관계성을 파악 및 필요시 예측. 데이터 품질이 낮으면 신뢰도 낮다.

  • 데이터 : 추론과 추정의 근거를 이루는 사실. 과거의 관념적이고 추상적인 개념에서 기술적이고 사실적인 의미로 변화. 단순 객체로서의 가치뿐 아니라 다른 객체와의 상호관계 속에서 가치를 갖는다.

데이터 유형

구분형태특징
정성적 데이터언어, 문자 등저장, 검색, 분석에 많은 비용 소모
정량적 데이터수치, 도형 등정형화가 되어 있어 분석에 비용 소모 감소
  • 정성적 : 비정형 데이터 + 주관적 내용 + 통계 분석이 어렵다.
  • 정량적 : 정형 데이터 + 객관적 내용 + 통계 분석이 용이하다.

데이터 분석 과거 vs 현재

  • 과거 : feature을 발견하는데 사람이 직접 찾는다. 정형 데이터 분석은 가능하나, 사진이나, 음성 등과 같은 비정형 데이터 분석 용이 x
  • 현재 : knn방법과 같이 기계를 이용하여 특징 추출부터 모형 대입까지 다 하여 비정형까지 분석 가능

암묵지 vs 형식지

구분의미특징
암묵지학습, 경험을 통해 개인에게 체화, but 겉으로는 드러나지 않음다른 사람에게 공유가 어렵다.
형식지문서나 메뉴얼처럼 형상화전달과 공유가 용이

암묵지 : 내면화(개인에게 축적) -> 공통화(조직의 지식으로)
형식지 : 표출화(언어, 기호로) -> 연결화(개인의 지식으로)

KIDM모델

  • Signals : -5v, 5v로 이루어져 있으며 시그널을 데이터로 변환할 수 있다.
  • Data: 가장 기초적인 정보. ex) 학생 키, A마트에서의 과자 가격 등등..., 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실
  • Information : 데이터의 가공 처리와 데이터간 연관관계 속에서 가치있는 정보로 제작
  • Knowledge : 데이터를 구조화하여 유의미한 정보를 분류하고, 개인적인 경험을 결합시켜 고유의 지식으로 내재화
  • Wisdom : 지식의 축적과 아이디어가 결합된 창의적인 산물

D->I->K->W로 가공을 하게 되면 다시 역방향으로는 돌아갈 수 없다.
예를 들어, Data를 가공하여 Information을 얻게 되면 다시 Information으로부터 Data를 얻기는 불가능

가치있는 데이터

과거부터 분석해왔기 때문에 보통 알고 있는 데이터는 일반적인 데이터, 우리가 발견해야 할 것은 극히 양이 적은 가치 있는 데이터

데이터의 가치

ex) ShoePik
단순히 상품판매를 위한 기업이면 가치 낮다. 그러나 ShoePik이란 어플을 통해 대다수의 국민의 발 사이즈를 안다면 기업의 가치는 상승
즉, 좋은 품질 + 낮은 가격이 기업의 성공을 보장하는 것이 아니라 다양한 데이터를 가지고 있느냐로 기업의 가치를 판단할 수 있다.

The data economy demands a new approach to antitrust rules
반독점은 성숙한 산업을 의미한다. 누구나 접근할 수 있다.
from The economist

profile
늦게 출발했지만 꾸준히 달려서 도착지점에 무사히 도달하자

0개의 댓글