기술통계학 - 2
HALF1007 통계학(수학과 배윤한 교수님) 수업을 듣고 정리했습니다.
목차
-
측정값의 상자그림을 보고 분포를 유추할 수 있을까?
-
평균만으로 자료의 분포를 유추할 수 있을까?
- Markov Inequality (마코프 부등식)
-
평균과 표준편차로 자료의 분포를 유추할 수 있을까?
- Chebyshev Inequality (체비세프 부등식)
-
자료의 특성과 밀도곡선
- 자료 탐색 절차
- 분포의 형태
- 왜도(Skewness)
-
탐색적 자료분석과 통계 그래픽스
- 통계 그래픽스의 의미
- Minard’s Map 사례
지금까지 Raw Data가 주어졌을 때, 정보를 표나 그림, 또는 하나의 숫자로 요약해서 표현해보았다.
그렇다면, 거꾸로 요약정보가 주어졌을 때, Raw Data에 대해서 생각해볼 수 있을까?
측정값의 상자그림을 보고 측정값들의 분포를 유추할 수 있을까?

평균만으로 자료의 분포를 유추할 수 있을까?
- n개의 수치 데이터에 대한 평균만을 알고 있을 때, 자료의 분포에 대한 어떠한 정보를 얻을 수 있을까?
Markov inequality (마코프 부등식)
정의

유도

예시

평균과 표준편차로 자료의 분포를 유추할 수 있을까?
- n개의 수치 데이터에 대한 평균과 분산을 알고 있을 때, 자료의 분포에 대한 정보를 얼마나 알 수 있을까?
Chebyshev inequality (체비세프 부등식)
정의

직관적으로 생각해보기
- 멀리 떨어진 값들은 제곱하면 엄청 커진다
- 그런데 그 제곱들의 평균이 분산이다
- 평균이 그렇게 크지 않다면, 그런 큰 값들은 많이 있을 수 없다

유도


예시

자료의 특성과 밀도곡선
자료의 특성을 탐색하는 절차
- 자료를 히스토그램, 줄기-잎 그림, 상자그림 등을 이용하여 그림으로 표현
- 그림으로터 전체적인 형태(중심위치, 흩어짐, 분포 모양 등)와 극단값이 존재하는지를 확인
- 평균, 표준편차 등의 값을 계산
- 분포모양을 하나의 부드러운 곡선(밀도곡선)으로 표현
분포의 형태
- 밀도곡선(density curve) : x축과 곡선 사이의 면적을 1이 되도록 만드는 곡선
- 밀도곡선에서 꼭짓점은 최빈값
- 곡선 아래 면적을 2등분하는 값은 중앙값
- 평균은 좌우 균형을 유지하는 점
- 봉우리의 개수에 따라, 단봉분포(unimodal distribution), 쌍봉분포(biomodal distribution)
왜도
- 왜도(skewness) : 자료의 비대칭 정도를 나타내는 측도

- 왜도는 단위가 없음
- 좌비대칭인 경우 음의 값
- 우비대칭인 경우 양의 값
- 0에 가까울수록 분포는 대칭 형태

탐색적 자료분석과 통계 그래픽스
- 20세기에 들어와 정치적으로는 여론조사가, 제조업에서는 품질관리가, 교육 분야에서는 표준화된 시험들이 시행되는 등 통계학의 유용성이 증대됨.
통계학자 C. R. Rao (1997)
- All knowledge is, in the final analysis, history.
- All sciences are, in the abstract, mathematics.
- All judgements are, in their rationale, statistics.
통계 그래픽스
- 수치적 데이터를 시각적으로 표현하는 다양한 기법을 다루는 분야
- "통계그래픽스(Statistical graphics)는 예술과 과학이 결합되어 있는 하나의 작품이다." - Edward Tufte
- 원자료를 요약 정리한 훌륭한 시각적 커뮤니케이션 작품은 훌륭한 글과 같은 역할을 함.
대표적 예시) Napoleon's 1812 Russian Campaign
- 프랑스 엔지니어 Charles Joseph Minard(1781 - 1870)가 나폴레옹 군대의 러시아 원정길에서의 처절한 운명의 전쟁을 정리한 그래픽스
- Minard's Map은 6가지 변수(군인 수, 2차원 표면, 군대의 진로방향, 모스크바로부터 퇴각시의 날짜와 온도)로 다양한 스토리를 말해준다.
