DataSience
- Data를 이용하는 과학의 분야 중에 하나
- Data~ 하는 용어들과 밀접한 관련이 있다.
- DataBase, Data Engineering, Data Analysis,...
- 하나의 확정된 개념은 아니다. 아직 지속적으로 발전중
- 그래서 기관/단체마다 정의하는 Data Science의 개념이 약간씩 다르다
- Data Science를 업으로 삼는 사람들을 Data Scientist 라고 한다.
선형대 수학
벡터
- 숫자의 나열, 숫자들의 묶음
- x = (1,2,3), y = (4,3,1)
- 벡터의 연산 : x + y = (5,5,4), 3 * x = (3,6,9)
- 벡터의 특징 : 원소값, 방향(상대적인 위치)
- 벡터의 차원 : 원소의 개수
- 벡터의 크기(norm) : 벡터의 모든 원소를 제곱하고 다 더한뒤, 루트를 씌워준 값(=원점과의 거리)
- 백터 공간(vector space) : 벡터가 정의되는 집합,연산,차원,기저(basis)(=축), ...
통계
기술통계량
- 데이터에서 측정할 수 있는 요약된 수치값들
- 평균 : 모든 데이터의 값을 더한 다음, 개수로 나눈 값
- 분산 : 데이터의 퍼진 정도, 각 데이터에서 평균을 뺀 값을 제곱해서 다 더한 뒤 데이터 개수로 나눈 값
- 표준편차 : 분산의 양의 제곱근
- 중앙값 : 오름차순으로 정렬을 했을 때, 한가운데 있는 값
- 최빈값 : 데이터 중에서 가장 많이 등장한 횟수
- 사분위수 : 오름차순으로 정렬해서 4등분한 지점. 25%/50%/75%
추론통계량
- 모집단 : 우리가 알고 싶은 대상
- 표본집단 : 모집단에 대상이 될 것 같은 데이터의 일부(sample)
- 표본평균 : 표본집단의 평균
- 표본분산 : 표본집단의 분산
- 추정(estimation) : 표본집단을 통해서 모집단의 정보들을 예측하는 행위
- 가설 검정(testing hypothesis) : 추정할 때 가정하는 명제가 맞는지 틀리는지를 확인하는 작업
정보이론
- 정보라는 대상에 대해서 다루는 학문
- Bit : 0 또는 1
- Byte : 8bits = 1B
- KB, MB, GB, TB, PB : 1024B = 1KB, 1024KB = 1MB, 1024MB = 1GB, 1024GB = 1TB, 1024TB = 1PB
- entropy(엔트로피) : 정보의 차이를 나타낸 값
- 데이터(data) : 관측된 사실
- 정보(information) : 데이터를 가공해서 정형화한 수치값. 양. 사실
데이터 분석 레포트
- 분석 결과를 설명하는 문서
- 데이터 분석 내용을 정리해서 공유하는 것도 중요한 능력이다.
- 데이터 분석은 "설득의 도구"로써 사용되기 때문에 분석한 내용을 전달하는 것도 중요하다.
- 데이터 분석 레포트는 주로 다음과 같은 3가지로 공유된다.
- 대시보드
- 논문
- 블로그
모델링
- 수학/통계적인 방법을 이용하여 데이터를 해석하는 과정
- 데이터 사이언스에 사용하는 모델은 통계 모델 그 자체일수도 있고, 데이터를 분석하는 어떤 시스템 그 자체일 수도 있다.
- 모델은 하려고 하는 task에 따라 여러가지 이름으로 불린다.
- 데이터 사이언스는 주로 예측 모델이 사용된다.
- 예측 모델 : 주어진 데이터의 패턴을 파악해서 미래의 데이터의 패턴을 예측할 수 있는 시스템을 말한다.
- 모델링에는 통계정인 모델링과 머신러닝 방법이 주로 사용된다.
- 모델링이란 것은 어떠한 parameter를 찾아가는 과정이다.
통계적 모델링
- 데이터가 정의되는 공간(S)와 공간에서의 확률 분포(P)가 있다고 할때, 어떤 데이터는 S에서의 P를 통해서 만들어졌다고 가정하고 데이터를 잘 기술하는 P를 찾는 과정
- 보통 P는 parameter들에 대해서 정의된다.
- parameter란 어떤 통계 집단을 기술하는 측정된 값이다.
- 적절한 parameter를 찾게되면 잘 기술하는 P를 찾을 수 있다.
- 이러한 parameter를 찾아가는 과정
머신러닝 모델링
- 주어진 학습 데이터로 얻은 정보로 학습하지 않은 데이터에 대해서 예측(또는 추론)을 하는 과정
- 머신러닝 모델은 여러가지 종류가 있다.
- 어떤 task를 수행하느냐에 따라서 적합한 모델들이 있다.
- 분류 : Logistic Regression, Naive Bayes, ...
- 회귀 : Linear Regression, Random Forest, ...
- 통계적인 모델링처럼 적절한 Parameter(또는 weight)를 찾는 과정이라고 볼 수 있다.
- 학습 방법을 결정하는 parameter인 hyper-parameter의 영향을 받는다.