데이터 과학 기초
Sampling (샘플 추출)
sample = 표본
population = 전체, 원본, 모집단
distribution = 분포
확률
전체가 100명일때 (릭과 모티 포함) 두 사람을 추출한다.
-
릭과 모티를 추출 안하는 확률
-
릭과 모티 둘다 추출될 경우
- (1/100)(1/99)+(1/100)(1/99)
몬티홀 문제
랜덤 추출 (Random Samples)
Deterministic sample(결정된 샘플)
Random sample(랜덤 샘플)
- 표본을 추출하기 전에 모집단의 모든 그룹의 선택 확률을 알아야 한다.
- 정확히 어떤 값이 얼마나 뽑히는지 알아야한다.
- 모든 개인/그룹이 선발될 수 있는 동등한 기회를 가질 필요는 없다.


- 랜덤하게 값을 뽑는 것이 아닌, 특정한 값을 가지는 값들을 추출한다.
- 그래서 deterministic sample이다.

- 반면에 이는, 랜덤한 숫자를 뽑아 테이블에서 값을 추출한다
Sample of Convenience 편리함의 표본
ex) 지나가는 사람을 대상으로한 추출
무작위로 표본을 추출했다고 해서 random sample을 추출한 것은 아니다.
- 미리 전체 polulation 얼마나되는지 알 수 없다면
- population에서 각 그룹이 선택될 경우, 확률을 모른다면
random sample이라고 할 수 없다.
그냥 편의상 랜덤 샘플이라고 하는 것이다.
distribution 분포
Probability Distribution 확률 분포
- 가능한 값이 정의된 다양한 값들??
- 음.. 어떠한 값을 뽑을 수 있는 경우의 분포라 생각하자
확률 분포
- 특정 양에 대한 가능한 값
- 각 값의 확률
- 특정 값에 대한 확률이 정의되어야한다.
- ex) 안경낀 학생을 고르는 경우는 1/6이다.
- 수학적으로 계산할 수 있다면, 시뮬레이션을 하지 않고 확률분포를 구할 수 있다.
- 그치만 시뮬레이션이 더 쉬운 경우가 있다.
- 시뮬을 통해 생성된 distribution을 empirical distribution이라고 한다
Empirical Distribution 경험적 분포
(random sample 뽑기)실험을 토대로 나타낸 확률 분포
- Empirical: 관찰된 결과를 기반으로 한다.
- 관찰은 실험의 반복이다.
경험적 분포
- 모든 값은 관찰마다 다른 값을 지닌다.
- 각 값이 나타날때마다 비율이 정해진다..
- 100 번했을 때 이 값이 몇번 나왔는가에 따라 비율이 정해진다

- 주사위가 가지는 값이다.
- 이걸로 주사위를 굴리겠다.


- 주사위에서 10번 무작위로 어떠한 값이 나왔는지 본다

- 주사위를 10번 던졌을 때 각 값의 확률은 이렇게 나왔다.

- 많은 실험을 할 수록 원래의 값과 비슷해진다.

- empirical distribution을 통해 진행했다...!!
- 진행하는 횟수가 많을 수록 원래의 값과 비슷해지는 것을 발견했다!!
Large Random Samples
Law of Averages/ law of Large Numbers
우연한 실험이 여러 번, 독립적으로 그리고 동일한 조건에서 반복된다면 사건이 발생하는 시간의 비율은 사건의 이론적 확률에 더 가까워진다.
- 주사위를 굴리는 수를 늘리면 5가 나올 비율이 1/6에 가까워진다.
Empirical Distribution of a sample
표본 크기가 크면 균일한 랜덤 표본의 경험적 분포는 population의 분포와 유사하다.


- 이 테이블 Delay 칼럼에 대한 히스토그램이다.

- 테이블에서 10개의 값을 랜덤하게 뽑아와서 히스토그램을 그려봤다.

- 1000번 랜덤하게 뽑으니 원래의 값과 비슷해졌다..
- large random samples.. law of average에 따라 샘플의 크기가 크니 원래의 값과 비슷해졌다
Statics 통계치
추론
Statistical Inference 통계적 추론
- 랜덤 표본의 데이터를 기반으로 결론을 내린다.
ex)
- 데이터를 사용하여 알수 없는(고정된,평균의) 숫자의 값을 예측한다.
- random sample을 근거로 알 수 없는 양에 대한 값을 추정
용어
Parameter
Statistic
Statistic은 Parameter의 추정치로 사용할 수 있다.

- Large Random Samples에서 사용한 테이블이다.


- statistic이다.
- 샘플을 많이할 수록 parameter와 가까워지는 것을 볼 수 있다.
- 물론 이 값들도 다 랜덤이다
- 랜덤이지만 값들이 parameter와 가깝다는 것을 뜻한다.
Probability Distribution of a statistic 통계의 확률 분포
그냥 통계치의 값은 다양하다 라는 걸 의미
-
통계의 값은 다양하다
-
통계의 "표본 분포" 또는 "확률 분포":
- 통계의 모든 가능한 값과 이에 상응하는 모든 확률값이 있다.
- 샘플링을 할때마다 나오는 값들에 대해서 분포를 만들 수 있다.
-
어떻게 구하는가
- 수학적으로 계산을 하거나
- 표본(샘플)을 생성하고 각 표본을 기반으로 통계를 계산해야 한다.
Empirical Distribution of a statistic 통계의 경험적 분포
그럼 통계치를 여러번 구해서(경험적 분포)그래서 확률 분포를 만들 수 있다
앞에서 사용한 테이블을 그대로 사용하겠다.

- 테이블 Delay 칼럼에서 중간값을 뽑는 함수를 생성했다.
population 대해서는 값이 2.0이었다.

- 10개씩 뽑아 중간값을 구하는 통계를 2000번 반복해 히스토그램(경험적분포로 만든 확률분포)을 그렸다.

- 1000개씩 뽑아 1000번 시뮬레이션을 했다.
모델
- 모델은 데이터에 대한 가정의 집합이다.
- 데이터 과학에서 많은 모델은 랜덤성을 포함하는 프로세스에 대한 가정을 포함한다.
주요 관점: 모델이 데이터에 적합한가?
Approach to Assessment 모델 평가 방법
- 모델의 가정에 따라 데이터를 시뮬레이션할 수 있다면 모델을 통해 예측할 수 있다.
- 데이터와 모델의 예측이 일치하지 않으면 모델은 잘못 되었다는 것을 뜻한다.
한번 모델을 통해 예측해보자
categorical 범주에서 무작위 추출을 한다.
sample_proportions(샘플 크기,비율)
- 모집단에서 랜덤하게 샘플을 추출한다.
- 샘플에 있는 범주의 empirical 분포를 포함하는 배열을 반환한다.
이게 무슨 함수지..? 할 수 있다...
한번 실행 해보자

- 일단 0.1과 0.9의 비율을 가지는 값을 100번 추출해봤다.
그럼 한번 10000번 추출해보자

그래서 sample_proportions는 해당 비율을 주면 이를 주어진 횟수만큼 샘플링해준다고 할 수 있다.
- 문제를 파악
- population에서 샘플했을 때에 비율을 구해
- 현재 나타나는 문제의 비율을 구해
- 이를 비교해봐
한번 5퍼센트 안에 오는지 체크 해보자 낼
오 된다