Chapter 1 Data and Statistics
Statistics?
통계학(statistics)이라는 용어는 평균(averages), 중앙값(medians), 백분율(percents), 지수(index numbers) 등과 같은
숫자적 사실(numerical facts)을 말하며, 이러한 사실들은 다양한 비즈니스 및 경제 사항을 이해하는 데 도움이 됨
또한, 통계학은 데이터 수집(collecting), 분석(analyzing), 프레젠테이션(prsenting), 해석(interpreting) 등을 포함하는
데이터의 예술과 과학으로서의 의미도 있음
Data and Data Sets
- 데이터(data)는 수집되고 분석되며 요약되어 발표 및 해석을 위해 수집된 사실(facts)과 수치(figures)
- 특정 연구(particular study)에서 수집된 모든 데이터는 해당 연구의 데이터 집합(data set)으로 참조
Elements, Variables, and Observations
- 요소(Elements)는 데이터가 수집되는 대상(entities)
- 변수(variable)은 요소에 대한 관심 있는 특성(characteristic)
- 특정 요소에 대한 측정 값 집합(set of measurements)을 관측값(observation)이라고 함
- n개의 요소를 가진 데이터 집합(data set)은 n개의 관측값(observation)을 포함
- 완전한 데이터 집합에서 데이터 값의 총 수는 요소 수(number of elements)와 변수 수(number of variables)의 곱
Total no. of data values = (elements no.) * (variables no.)
Data, Data Sets, Elements, Variables, and Observations
- Element Names
- 행(Row)의 내용들
- 비슷한 범주의 내용들을 다룸
- Variables
- Data Set
- Obsrevation
Cross-Sectional Data
- 교차 단면 자료(Cross-sectional data)는 동일한 시점, 거의 동일한 시점에서 수집되는 자료를 의미
- 예시
- 오하이오 주의 각 카운티에서 2010년 2월에 발급된 건축 허가증의 수 기록
=> 서로 다른 지역 간의 허가증 활동 비교
- 동일한 시점에서 수집된 소비자 설문 조사 자료
=> 특정 시점에서 소비자 행동이나 선호도 이해

(예시 자료: Mutual fund data was collected at the same time point)
Time Series Data
- 시계열 자료(Time series data)는 여러 시간 또는 기간 동안 수집된 자료(several time periods)
- 시간 경과에 따라 패턴이나 추세를 분석하는 데 사용
- 예시
- 오하이오 주의 루카스 카운티에서 발급 된 건축 허가증의 수를 최근 36개월간 기록

(예시 자료: US Average Price per Gallon(March 06 ~ Jul 09))
Data Acquisition Considerations
Time Requirement
- 정보를 찾는 것은 시간이 많이 소요(time consuming)
- 정보를 사용 가능할 때까지 기다리는 동안 정보가 유용하지 않을 수 있음(information may no longer be useful)
Cost of Acquisition
- 기관(Organizations)은 주요 비즈니스 활동이 아니더라도 정보에 대한 요금 부가 가능
Data Errors
- 잘못된 데이터(erroneous data)를 사용하는 것은 아예 데이터를 사용하지 않는 것보다 더 나쁠 수 있음
Descriptive Statistics
- 대부분의 신문, 잡지, 기업 보고서 및 기타 출판물에서 제공되는 통계 정보는 요약되어 있으며 이해하기 쉬운 형태로 제시
- 이러한 데이터 요약은 표, 그래프 또는 수치 형태일 수 있으며, 이러한 요약 정보들을 기술 통계(descriptive statistics)라고 함
Population vs. Sample
많은 상황에서는 개인, 회사, 유권자, 제품 등 많은 요소들에 대한 정보가 필요
하지만 시간, 비용 및 기타 고려 사항 때문에 해당 그룹의 일부분에서만 데이터를 수집
- 모집단(Population)
특정 연구에서 모든 관심 대상 요소의 집합
- 표본(Sample)
모집단의 부분 집합
Census vs. Sample Survey
- 인구 조사(Census)
전체 인구 조사를 위해 조사를 실시
- 표본 조사(Sample Survey)
샘플 데이터를 수집하기 위해 조사를 실시

Statistical Inference
- 통계적 추론(Statistical Inference)은 표본(sample)에서 얻은 데이터를 이용하여
모집단(population)의 특성에 대한 추정치(estimates)를 구하고 가설(hypotheses)를 검증하는 과정