kaggle titanic bins args의 의미

jun hyeon·2023년 10월 18일
0

etc

목록 보기
6/7

fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(14, 6))

women = titanic[titanic['sex']=='female']
men = titanic[titanic['sex']=='male']

ax = sns.distplot(women[women['survived']==1]['age'], bins=20, label='survived', ax=axes[0], kde=False)
ax = sns.distplot(women[women['survived']==0]['age'], bins=40, label='not_survived', ax=axes[0], kde=False)
ax.legend(); 
ax.set_title('Female')

ax = sns.distplot(men[men['survived']==1]['age'], bins=18, label='survived', ax=axes[1], kde=False)
ax = sns.distplot(men[men['survived']==0]['age'], bins=40, label='not_survived', ax=axes[1], kde=False)
ax.legend(); 
ax.set_title('Male');

'bins' 인자 - 구간의 개수를 설정.

bins가 적으면(ex:20), 데이터가 큰 범위로 묶이기 때문에 분포의 미세한 패턴을 확인하기 어렵다.

반면 bins가 많으면(ex:40), 데이터가 작은 범위로 묶이므로 분포의 세부 패턴을 더 잘 확인할 수 있다.

bins가 작을수록 분포를 보다 미세하게 파악할 수 있는 것.

히스토그램에서 각 막대의 폭이 구간의 크기이므로, bins 수가 작을수록 구간 폭이 커지는 원리이다.

0개의 댓글