데이터 사이언스란?

오상윤·2023년 1월 3일

데이터 사이언스

목록 보기
1/4

DataSience

  • Data를 이용하는 과학의 분야 중에 하나
  • Data~ 하는 용어들과 밀접한 관련이 있다.
    • DataBase, Data Engineering, Data Analysis,...
  • 하나의 확정된 개념은 아니다. 아직 지속적으로 발전중
    • 그래서 기관/단체마다 정의하는 Data Science의 개념이 약간씩 다르다
  • Data Science를 업으로 삼는 사람들을 Data Scientist 라고 한다.

선형대 수학

벡터

  • 숫자의 나열, 숫자들의 묶음
  • x = (1,2,3), y = (4,3,1)
  • 벡터의 연산 : x + y = (5,5,4), 3 * x = (3,6,9)
  • 벡터의 특징 : 원소값, 방향(상대적인 위치)
  • 벡터의 차원 : 원소의 개수
  • 벡터의 크기(norm) : 벡터의 모든 원소를 제곱하고 다 더한뒤, 루트를 씌워준 값(=원점과의 거리)
  • 백터 공간(vector space) : 벡터가 정의되는 집합,연산,차원,기저(basis)(=축), ...

통계

기술통계량

  • 데이터에서 측정할 수 있는 요약된 수치값들
  • 평균 : 모든 데이터의 값을 더한 다음, 개수로 나눈 값
  • 분산 : 데이터의 퍼진 정도, 각 데이터에서 평균을 뺀 값을 제곱해서 다 더한 뒤 데이터 개수로 나눈 값
  • 표준편차 : 분산의 양의 제곱근
  • 중앙값 : 오름차순으로 정렬을 했을 때, 한가운데 있는 값
  • 최빈값 : 데이터 중에서 가장 많이 등장한 횟수
  • 사분위수 : 오름차순으로 정렬해서 4등분한 지점. 25%/50%/75%

추론통계량

  • 모집단 : 우리가 알고 싶은 대상
  • 표본집단 : 모집단에 대상이 될 것 같은 데이터의 일부(sample)
  • 표본평균 : 표본집단의 평균
  • 표본분산 : 표본집단의 분산
  • 추정(estimation) : 표본집단을 통해서 모집단의 정보들을 예측하는 행위
  • 가설 검정(testing hypothesis) : 추정할 때 가정하는 명제가 맞는지 틀리는지를 확인하는 작업

정보이론

  • 정보라는 대상에 대해서 다루는 학문
  • Bit : 0 또는 1
  • Byte : 8bits = 1B
  • KB, MB, GB, TB, PB : 1024B = 1KB, 1024KB = 1MB, 1024MB = 1GB, 1024GB = 1TB, 1024TB = 1PB
  • entropy(엔트로피) : 정보의 차이를 나타낸 값
  • 데이터(data) : 관측된 사실
  • 정보(information) : 데이터를 가공해서 정형화한 수치값. 양. 사실

데이터 분석 레포트

  • 분석 결과를 설명하는 문서
  • 데이터 분석 내용을 정리해서 공유하는 것도 중요한 능력이다.
  • 데이터 분석은 "설득의 도구"로써 사용되기 때문에 분석한 내용을 전달하는 것도 중요하다.
  • 데이터 분석 레포트는 주로 다음과 같은 3가지로 공유된다.
  1. 대시보드
  2. 논문
  3. 블로그

모델링

  • 수학/통계적인 방법을 이용하여 데이터를 해석하는 과정
  • 데이터 사이언스에 사용하는 모델은 통계 모델 그 자체일수도 있고, 데이터를 분석하는 어떤 시스템 그 자체일 수도 있다.
  • 모델은 하려고 하는 task에 따라 여러가지 이름으로 불린다.
  • 데이터 사이언스는 주로 예측 모델이 사용된다.
  • 예측 모델 : 주어진 데이터의 패턴을 파악해서 미래의 데이터의 패턴을 예측할 수 있는 시스템을 말한다.
  • 모델링에는 통계정인 모델링과 머신러닝 방법이 주로 사용된다.
  • 모델링이란 것은 어떠한 parameter를 찾아가는 과정이다.

통계적 모델링

  • 데이터가 정의되는 공간(S)와 공간에서의 확률 분포(P)가 있다고 할때, 어떤 데이터는 S에서의 P를 통해서 만들어졌다고 가정하고 데이터를 잘 기술하는 P를 찾는 과정
  • 보통 P는 parameter들에 대해서 정의된다.
  • parameter란 어떤 통계 집단을 기술하는 측정된 값이다.
    • ex) 평균, 표준편차
  • 적절한 parameter를 찾게되면 잘 기술하는 P를 찾을 수 있다.
  • 이러한 parameter를 찾아가는 과정

머신러닝 모델링

  • 주어진 학습 데이터로 얻은 정보로 학습하지 않은 데이터에 대해서 예측(또는 추론)을 하는 과정
  • 머신러닝 모델은 여러가지 종류가 있다.
  • 어떤 task를 수행하느냐에 따라서 적합한 모델들이 있다.
    • 분류 : Logistic Regression, Naive Bayes, ...
    • 회귀 : Linear Regression, Random Forest, ...
  • 통계적인 모델링처럼 적절한 Parameter(또는 weight)를 찾는 과정이라고 볼 수 있다.
  • 학습 방법을 결정하는 parameter인 hyper-parameter의 영향을 받는다.
profile
가보자가보자~

0개의 댓글