[Week2] (데이터 사이언스란?) 02. 데이터 사이언스 기본 용어

jjooki-entist·2022년 8월 29일
0

데이터사이언스를 하는데 있어서 기본적인 수학지식이 필요하다!
선형대수학과 통계, 컴퓨터 지식은 선택이 아닌 필수다.
이번 시간에는 간단하게 기본 중의 기본에만 용어를 알아보도록 하자.

선형대수학

💡 벡터 : 숫자들의 묶음. e.g (1,2,3)

x = (1, 2, 3), y = (4, 3, 1)

  • 벡터의 연산 : x + y = (5, 5, 4) // 3 * x = (3, 6, 9)
  • 벡터의 특징 : 원소값, 방향(상대적)
  • 벡터의 차원 : 원소의 개수
  • 벡터의 크기(norm) : 원소의 제곱합의 제곱근(L2 norm)을 가장 많이 씀
  • 벡터 스페이스 : 벡터가 정의되는 집합. 연산, 차원, 기저(basis), …

통계

💡 기술통계량(descriptive statistics) : 데이터에서 측정할 수 있는 요약된 수치

  • 평균(average) : 모든 데이터의 값을 더한 다음, 개수로 나눈 값
  • 분산(Deviation) : 데이터의 퍼진 정도, 편차 제곱의 평균
  • 표준편차(Standard Deviation) : 분산의 제곱근
  • 중앙값(median) : 오름차순(또는 내림차순)으로 정렬했을 때, 한 가운데에 있는 값
  • 최빈값(mode) : 데이터 중에서 가장 많이 등장한 수
  • 사분위수(Qunatile) : 오름차순으로 정렬해서 4등분한 지점의 수
    25%(Q1) / 50%(Q2 = 중앙값) / 75%(Q3)

💡 추론통계량 : 모집단에 대해서 예측한 수치

  • 모집단 : 우리가 알고 싶은 대상 전부
  • 표본집단 : 모집단에 대상이 될 것 같은 데이터의 일부.
  • 표본평균 : 표본집단의 평균
  • 표본분산 : 표본집단의 분산
  • 추정(Estimation) : 표본집단을 통해서 모집단의 정보들을 예측하는 행위
  • 가설검정(Testing Hypothesis) : 추정할 때 가정하는 명제가 맞는지 확인하는 작업

정보 이론

💡 정보 이론(Information Theory) : 정보라는 대상에 대해서 다루는 학문

  • Bit : 0 또는 1
  • Byte : 8bit
  • KB, MB, GB, TB, PB
    • 1024Byte = 1KB, 1024KB = 1MB, 1024MB = 1GB, 1024GB = 1TB, 1024TB = 1PB
  • entropy(엔트로피) : 정보의 차이를 나타낸 값

DIKW

  • 데이터(Data) : 관측된 사실(Observed fact)
  • 정보(Information) : 데이터의 가공, 처리와 데이터 간 연관관계 속에서 도출된 의미
  • 지식(Knowledge) : 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 내재화된 것
  • 지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적인 산물
profile
데이터 사이언티스트를 꿈꾸는 3년차 제품총괄입니다.

0개의 댓글