데이터사이언스를 하는데 있어서 기본적인 수학지식이 필요하다!
선형대수학과 통계, 컴퓨터 지식은 선택이 아닌 필수다.
이번 시간에는 간단하게 기본 중의 기본에만 용어를 알아보도록 하자.
선형대수학
💡 벡터 : 숫자들의 묶음. e.g (1,2,3)
x = (1, 2, 3), y = (4, 3, 1)
- 벡터의 연산 : x + y = (5, 5, 4) // 3 * x = (3, 6, 9)
- 벡터의 특징 : 원소값, 방향(상대적)
- 벡터의 차원 : 원소의 개수
- 벡터의 크기(norm) : 원소의 제곱합의 제곱근(L2 norm)을 가장 많이 씀
- 벡터 스페이스 : 벡터가 정의되는 집합. 연산, 차원, 기저(basis), …
통계
💡 기술통계량(descriptive statistics) : 데이터에서 측정할 수 있는 요약된 수치
- 평균(average) : 모든 데이터의 값을 더한 다음, 개수로 나눈 값
- 분산(Deviation) : 데이터의 퍼진 정도, 편차 제곱의 평균
- 표준편차(Standard Deviation) : 분산의 제곱근
- 중앙값(median) : 오름차순(또는 내림차순)으로 정렬했을 때, 한 가운데에 있는 값
- 최빈값(mode) : 데이터 중에서 가장 많이 등장한 수
- 사분위수(Qunatile) : 오름차순으로 정렬해서 4등분한 지점의 수
25%(Q1) / 50%(Q2 = 중앙값) / 75%(Q3)
💡 추론통계량 : 모집단에 대해서 예측한 수치
- 모집단 : 우리가 알고 싶은 대상 전부
- 표본집단 : 모집단에 대상이 될 것 같은 데이터의 일부.
- 표본평균 : 표본집단의 평균
- 표본분산 : 표본집단의 분산
- 추정(Estimation) : 표본집단을 통해서 모집단의 정보들을 예측하는 행위
- 가설검정(Testing Hypothesis) : 추정할 때 가정하는 명제가 맞는지 확인하는 작업
정보 이론
💡 정보 이론(Information Theory) : 정보라는 대상에 대해서 다루는 학문
- Bit : 0 또는 1
- Byte : 8bit
- KB, MB, GB, TB, PB
- 1024Byte = 1KB, 1024KB = 1MB, 1024MB = 1GB, 1024GB = 1TB, 1024TB = 1PB
- entropy(엔트로피) : 정보의 차이를 나타낸 값
DIKW
- 데이터(Data) : 관측된 사실(Observed fact)
- 정보(Information) : 데이터의 가공, 처리와 데이터 간 연관관계 속에서 도출된 의미
- 지식(Knowledge) : 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 내재화된 것
- 지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적인 산물