[출처: 데이터 과학을 위한 통계]
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
url = "https://raw.githubusercontent.com/gedeck/practical-statistics-for-data-scientists/master/data/loans_income.csv"
loans_income = pd.read_csv(url)
sample_data = pd.DataFrame.from_records([{
'income': loans_income.sample(1000),
'type': 'Data'
}])
sample_mean_05 = pd.DataFrame.from_records([{
'income': [loans_income.sample(5).mean() for _ in range(1000)],
'type': 'Mean of 5'
}])
sample_mean_20 = pd.DataFrame.from_records([{
'income': [loans_income.sample(20).mean() for _ in range(1000)],
'type': 'Mean of 20'
}])
results = pd.concat([sample_data, sample_mean_05, sample_mean_20])
g = sns.FacetGrid(results, col = 'type', col_wrap = 1, height = 2, aspect = 2)
g.map(plt.hist, 'income', range = [0, 200000], bins = 40)
g.set_axis_labels('Income', 'Count')
g.set_titles('{col_name}')
1. 중심 극한 정리
1. 표준오차란?
2. 표준오차를 측정할 때 고려할 사항
3. 부트스트랩
4. 표준편차 vs 표준오차
피터 브루스, 앤드루 브루스의 <데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 50가지 핵심 개념> 을 읽고 정리한 내용입니다.