Chapter 2 Descriptive Statistics:
Tabular and Graphical Presentations
탐색적 데이터 분석(Exploratory Data Analysis)
간단한 산술 연산과 그림 그리기 기술을 활용하여 데이터를 빠르게 요약하는 기법
이러한 기술 중 하나는 줄기-잎 그림(stem-and-leaf display)
줄기-잎 그림(Stemp-and-Leaf Display)
- 줄기-잎 그림은 데이터의 순위와 분포의 형태를 모두 보여 줌
- 히스토그램을 옆으로 눕혔다는 점에서 비슷하지만, 실제 데이터 값을 보여줄 수 있는 이점
- 각 데이터 항목의 첫 번째 자릿수를 수직선 왼쪽에 정렬
- 수직선 오른쪽에는 항목의 마지막 숫자를 순위순으로 기록
- 표시된 각 행은 줄기(stem)
- 줄기의 각 숫자는 잎(leaf)
이해를 돕기 위한 자료
한슨 오토리페어의 매니저는 자동차 엔진 튠업 작업에서 사용되는 부품 비용에 대한 이해를 높이고자 합니다.
그녀는 튠업을 받은 50명의 고객 청구서를 조사합니다.
부품 비용은 가장 가까운 달러로 반올림된 값으로 다음 슬라이드에 나열되어 있습니다.
이제 수직선을 그리고, 왼쪽 부분에 첫 번째 자리 수 값을 쓰고, 오른쪽 부분에 마지막 자리 수 값을 작성
만약 $52, $57, 62 등으로 읽는다면, 마지막에 $109가 나옴
왼쪽 부분에 있는 값은 줄기(stem)라고 하고, 오른쪽 부분에 있는 값은 잎(leaf)이라고 함
늘어난 줄기-잎 그림(Stretched Stem-and-Leaf Display)
- 만약 원래의 줄기-잎 플롯이 데이터를 너무 많이 압축했다고(condensed) 생각한다면,
우리는 각 선행 숫자마다 두 개의 줄기를 사용하여 플롯을 세로로 늘릴 수 있다.
- 만약 한 줄기 값이 두 번 언급된다면, 첫 번째 값은 0 - 4의 잎 값에 해당하고, 두 번째 값은 5 - 9의 잎 값에 해당
이해를 돕기 위한 자료
이제 50 달러의 가격을 나눔
그래서 위에는 50-54 달러가 쓰이고, 아래에는 55-59 달러가 씌어 짐
따라서 각 금액은 두 개의 섹션으로 나뉨
더 펼쳐져서 더 많은 정보를 볼 수 있음
- Leaf Units
- 하나의 숫자로 각 잎사귀(leaf)를 정의
- 앞서 예시에서는 잎사귀(leaf) 단위가 1
- 잎사귀(leaf) 단위는 100, 10, 1, 0.1 등이 될 수 있음
- 잎사귀(leaf) 단위가 표시되어 있지 않으면, 1로 가정
- 잎사귀(leaf) 단위는 원래 데이터를 근사하기 위해 stem-and-leaf 표시에서 숫자를 곱하는 방법을 나타냄
교차 분할표와 산점도(Crosstabulations and Scatter Diagrams)
- 지금까지는 한 번에 하나의 변수에 대한 데이터를 요약하는 방법에 초점
- 종종 관리자는 두 변수 간의 관계를 이해하는 데 도움이 되는 표 및 그래픽 방법에 관심
- 교차 분할표와 산점도는 두 변수에 대한 데이터를 동시에 요약하는 데 사용되는 두 가지 방법
교차분할표(Crosstabulation)
- 교차분할표는 두 가지 변수에 대한 자료를 표로 정리한 것
- 어떤 경우에 교차분할표를 사용?
- 하나의 변수가 질적(qualitative) 변수이고 다른 하나는 양적(quantitative) 변수인 경우
- 두 변수 모두 질적(qualitative) 변수인 경우
- 두 변수 모두 양적(quantitative) 변수인 경우 등
- 좌측과 상단에 있는 행과 열의 라벨은 두 변수의 범주(category)를 정의
이해를 돕기 위한 자료
예시: Finger Lakes 주택
지난 2년간 각각의 스타일과 가격별로 판매된 Finger Lakes 주택 수가 아래에 나와 있습니다.
샘플에서 가장 많은 주택(19개)은 스플릿 레벨 스타일이며 20만 달러 미만의 가격
샘플에서는 A-프레임 스타일이고 20만 달러 이상의 가격인 주택이 단 세 채 뿐
교차 분석: 행 또는 열 백분율(Crosstabulation: Row or Column Percentages)
- 표 안의 항목을 행 백분율 또는 열 백분율로 변환하면 두 변수 간의 관계에 대한 추가적인 통찰력을 제공
교차 분석: 행(Crosstabulation: Row)
교차 분석: 열 백분율(Crosstabulation: Column Percentages)
그래프: 장단점(Graph: Pros vs. cons)
-
그래프(Graph)
인간의 시각적 인지능력을 이용하여 현상을 직관적으로 인식하는 방법
통계적 데이터를 시각적으로 특성화하기 위한 요약 방법
-
그래프의 문제점(Problems with graphs)
그래프는 데이터의 특성에 대한 강한 인상을 줄 수 있으며, 해석이 과대해석되는 오류가 발생할 위험이 존재
-
응용 분야(Applications)
그래프를 통해 데이터 특성 및 이상치를 확인하여 통계 분석을 준비
그래프 작성 방법(How to prepare a graph)
산점도와 추세선(Scatter Diagram and Trendline)
- 산점도는 두 개의 양적 변수(quantitative variables) 간의 관계를 그래픽으로 나타내는 방법
- 하나의 변수는 수평축(horizontal axis)에, 다른 변수는 수직축(vertical axis)에 표시
- 그래프의 점들(plotted points)의 일반적인 패턴은 변수 간의 전반적인 관계를 시사합니다.
- 추세선은 관계의 근사치(approximation)를 제공합니다.
산점도 (Scatter Diagram)
- 양적 변수들 사이에 양의 관계가 있는 경우:
- 기울기가 양수인 선(positive slope)
- 상승하는 모양을 가지는 선(upward sloping shape)

- 양적 변수들 사이에 음의 관계가 있는 경우:
- 기울기가 음수인 선(negative slope)
- 하강하는 모양을 가지는 선(downward sloping shape)

- 양적 변수들 사이에 관계가 없는 경우:
- 기울기에 어떤 패턴도 보이지 않음(No pattern)

- 산점도 다이어그램 예시
- 1인당 GDP 대비 종교가 매우 중요하다고 답한 사람의 비율을 나타냄
- 하강하는 모양(Downward slope)
- 1인당 GDP(GDP per capita)가 증가하면 종교가 매우 중요하다고 답한 사람의 비율이 줄어듦
- 미국, 중국, 헝가리는 이상치로 판단됨

Tabular and Graphical Methods
