데이터 사이언스란?

오상윤·2023년 1월 3일

데이터 사이언스

목록 보기

1/4

DataSience

Data를 이용하는 과학의 분야 중에 하나
Data~ 하는 용어들과 밀접한 관련이 있다.
- DataBase, Data Engineering, Data Analysis,...
하나의 확정된 개념은 아니다. 아직 지속적으로 발전중
- 그래서 기관/단체마다 정의하는 Data Science의 개념이 약간씩 다르다
Data Science를 업으로 삼는 사람들을 Data Scientist 라고 한다.

선형대 수학

벡터

숫자의 나열, 숫자들의 묶음
x = (1,2,3), y = (4,3,1)
벡터의 연산 : x + y = (5,5,4), 3 * x = (3,6,9)
벡터의 특징 : 원소값, 방향(상대적인 위치)
벡터의 차원 : 원소의 개수
벡터의 크기(norm) : 벡터의 모든 원소를 제곱하고 다 더한뒤, 루트를 씌워준 값(=원점과의 거리)
백터 공간(vector space) : 벡터가 정의되는 집합,연산,차원,기저(basis)(=축), ...

통계

기술통계량

데이터에서 측정할 수 있는 요약된 수치값들
평균 : 모든 데이터의 값을 더한 다음, 개수로 나눈 값
분산 : 데이터의 퍼진 정도, 각 데이터에서 평균을 뺀 값을 제곱해서 다 더한 뒤 데이터 개수로 나눈 값
표준편차 : 분산의 양의 제곱근
중앙값 : 오름차순으로 정렬을 했을 때, 한가운데 있는 값
최빈값 : 데이터 중에서 가장 많이 등장한 횟수
사분위수 : 오름차순으로 정렬해서 4등분한 지점. 25%/50%/75%

추론통계량

모집단 : 우리가 알고 싶은 대상
표본집단 : 모집단에 대상이 될 것 같은 데이터의 일부(sample)
표본평균 : 표본집단의 평균
표본분산 : 표본집단의 분산
추정(estimation) : 표본집단을 통해서 모집단의 정보들을 예측하는 행위
가설 검정(testing hypothesis) : 추정할 때 가정하는 명제가 맞는지 틀리는지를 확인하는 작업

정보이론

정보라는 대상에 대해서 다루는 학문
Bit : 0 또는 1
Byte : 8bits = 1B
KB, MB, GB, TB, PB : 1024B = 1KB, 1024KB = 1MB, 1024MB = 1GB, 1024GB = 1TB, 1024TB = 1PB
entropy(엔트로피) : 정보의 차이를 나타낸 값
데이터(data) : 관측된 사실
정보(information) : 데이터를 가공해서 정형화한 수치값. 양. 사실

데이터 분석 레포트

분석 결과를 설명하는 문서
데이터 분석 내용을 정리해서 공유하는 것도 중요한 능력이다.
데이터 분석은 "설득의 도구"로써 사용되기 때문에 분석한 내용을 전달하는 것도 중요하다.
데이터 분석 레포트는 주로 다음과 같은 3가지로 공유된다.

대시보드
논문
블로그

모델링

수학/통계적인 방법을 이용하여 데이터를 해석하는 과정
데이터 사이언스에 사용하는 모델은 통계 모델 그 자체일수도 있고, 데이터를 분석하는 어떤 시스템 그 자체일 수도 있다.
모델은 하려고 하는 task에 따라 여러가지 이름으로 불린다.
데이터 사이언스는 주로 예측 모델이 사용된다.
예측 모델 : 주어진 데이터의 패턴을 파악해서 미래의 데이터의 패턴을 예측할 수 있는 시스템을 말한다.
모델링에는 통계정인 모델링과 머신러닝 방법이 주로 사용된다.
모델링이란 것은 어떠한 parameter를 찾아가는 과정이다.

통계적 모델링

데이터가 정의되는 공간(S)와 공간에서의 확률 분포(P)가 있다고 할때, 어떤 데이터는 S에서의 P를 통해서 만들어졌다고 가정하고 데이터를 잘 기술하는 P를 찾는 과정
보통 P는 parameter들에 대해서 정의된다.
parameter란 어떤 통계 집단을 기술하는 측정된 값이다.
- ex) 평균, 표준편차
적절한 parameter를 찾게되면 잘 기술하는 P를 찾을 수 있다.
이러한 parameter를 찾아가는 과정

머신러닝 모델링

주어진 학습 데이터로 얻은 정보로 학습하지 않은 데이터에 대해서 예측(또는 추론)을 하는 과정
머신러닝 모델은 여러가지 종류가 있다.
어떤 task를 수행하느냐에 따라서 적합한 모델들이 있다.
- 분류 : Logistic Regression, Naive Bayes, ...
- 회귀 : Linear Regression, Random Forest, ...
통계적인 모델링처럼 적절한 Parameter(또는 weight)를 찾는 과정이라고 볼 수 있다.
학습 방법을 결정하는 parameter인 hyper-parameter의 영향을 받는다.

가보자가보자~

다음 포스트

데이터 엔지니어링이란?

0개의 댓글