문제해결을 위한 의사결정 프로세스
- 핵심 이슈 정리
- 조사 대상 선별
- 필요 데이터 규명, 실험/조사 방법 수립
- 데이터 수집, 정리, 통계 처리 -> 정보
- 중요한 요인(factor) 발견
- 통계적 모형 개발, 추정
- 적합성 검증, 모형 최적화 -> 해답
- 결론 도출, 의사결정 제안
통계학이란
통계학의 정의
- 통계학이란 불확실한 상황 하에서 과학적인 의사결정을 도출하기 위한 이론과 방법의 체계
- 통계학은 매우 다양한 분야의 연구에서 주어진 문제에 대하여 적절한 데이터를 수집하고 분석하여 해답을 구하는 과정을 연구하는 과학의 한 분야
- 학문적 관점에서 보면 통계학은 응용 수학의 한 분야로서 실험 및 조사를 통하여 얻을 수 있는 데이터로부터 응용 수학의 기법을 이용해 관심 대상의 특성을 찾아내는 것
- 통계적 기법은, 실험계획, 데이터의 요약이나 해석을 실시하는데 있어서 근거를 제공하는 학문이며, 폭넓은 분야에서 응용되어 실생활에 적용되고 있음
통계학의 활용 분야
- 통계학의 영역에는 데이터의 수집 분류 표현 분석 추론 해석 등 다양한 분야가 포함
- 통계학은 공학 뿐 아니라 농업, 생명과학, 환경과학, 경제학, 경영학, 산업연구, 품질보증, 시장조사, 여론조사 등 거의 모든 분야에서 활용
- 통계학자는 주어진 문제에 대하여 필요한 데이터의 형태, 데이터를 수집하는 방법, 문제에 대한 최선의 답을 구하기 위한 분석방법을 결정하는 등의 역할 수행
- 오늘날 통계학은 우리의 일상생황에서 흔히 접하는 일기예보, 여론조사, 취업률 분석 등에서부터 수요예측, 주가 예측, 물가지수살출, 수주성공확률분석, 가상전쟁분석 등에 이르기까지 수많은 분야에 걸쳐 활용
- 통계학은 불확실성을 내포하고 있는 미지의 자연현상과 현대의 복잡한 사회현상에 대한 데이터를 수집, 정리 요약하며, 수집된 데이터와 정보를 이용하여 불확실한 미래에 대해 과학적인 판단을 내릴 수 있는 방법을 제시
통계학의 연구 분야
- 통계학의 연구 분야에는 통계이론을 연구하는 분야, 방법론을 개발하는 분야, 그리고 실제적인 문제해결을 위해 통계이론과 방법론을 응용하는 분야 등이 있음
- 통계적 이론 연구 분야: 통계학자들이 담당하는 영역으로 통계학의 기초가 되는 이론들
을 연구(확률론, 확률과정론, 수리통계, 점근적추론, 선형비선형모형, 회귀분석, 실험계획, 통계계산, 베이지안추론, 비모수추론, 시계열분석 등)
- 통계적 방법론 개발: 통계응용 분야에 필요한 통계적 방법론을 개발하는 분야임(계량경제
학, 생명정보학, 공학 등)
- 통계적 방법론 응용: 다양한 분야에서 발생하는 실제적인 문제를 해결하기 위해 효율적으로 통계이론과 방법론을 적용하는 분야
- 임상시험을 계획하고 그 결과를 분석하는 생물통계 유전자 관련 데이터를 분석하기 위한 생명정보학
- 제품의 균일성을 관리하는 품질관리와 시스랩의 수명을 분석하는 신뢰성분석 및 각종 공
학 분야에서 사용되는 공업통계
모집단과 표본
모집단과 모수
- 모집단(population): 올바른 의사결정을 도출하기 위해 관심을 갖고 연구해야 할 대상. 즉 통계분석의 연구대상이 되는 모든 개체들의 집합
- 모집단이란 통계분석의 연구대상이 되는 모든 개체들의 집합, 예를 들면 대선 여론조사에서는 유권자의 대선 후보에 대한 선호도가 모집단이 됨
- 좁은 의미로 보면 연구대상이 되는 모든 가능한 관측치나 측정치의 집합을 모집단 또는 통계적 모집단이라 함.
- 모집단이 유한개의 추출단위를 가질 때 유한모집단(finite population), 무한개의 추출단위를 가질 때 무한모집단(infinite population)이라 함.
- 모집단의 정의에서 주의해야 할 점은 통계적 모집단은 반드시 실존하는 개체들의 집합일 필요는 없음, 예를 들어 어떤 약의 치료효과를 생각 할 경우 미래의 환자에 대한 치료효과는 실제로 존재하는 것이 아니며 이경우에 모집단은 추상적인 개념이 됨
- 모수(parameter): 모집단의 특성을 나타내는 수치로서 평균, 표준편차, 분산, 비율 등 다양함. 통계학에서는 의사결정을 위해 특별히 관심을 갖는 모수만을 선택하여 분석대상으로 함
- 모집단의 특성은 매우 다양하므로 이 모든 특성을 모두 표현하기는 어렵고 우리가 특별히 관심을 갖는 특성만을 선별하여 데이터 분석을 통해 추측하게 되는 데 대표적인 모수로는 평균(mean), 표준편차(standard deviation), 분산(variance), 왜도(skewness), 첨도(kurtosis), 비율(ratio) 등이 있음
표본과 통계량
- 표본(sample): 모집단의 특성을 파악하기 위해 모집단으로부터 일정한 규칙에 의해 추출한 모집단의 부분집합
- 구체적으로 말하면, 통계처리를 위하여 모집단에서 실제로 추출한 관측치나 측정치의
집합을 표본이라 하고, 표본은 모집단에 비해 크기가 작기 때문에 정확한 정보를 주지
못하는 것이 보통임
- 모집단을 전부 조사하면 정확한 정보를 얻을 수 있겠지만, 대부분의 경우 이렇게 모두
조사하는 것은 불가능하여 표본을 사용함
- 통계학이란 한 마디로 일부분을 통해 전체에 대해서 판단하는 것(표본에 담긴 정보를 사
용하여 모집단의 특성을 추측)이며 이를 통계적 추론(inference)이라 함
데이터의 종류
개체
- 개체는 자료를 수집하는 대상, 즉 국가 통계에서 대표적인 개체는 개인이나 기업이됨
변수
- 변수는 개체의 특징을 나타냄, 따라서 변수는 개체마다 고유의 값을 갖게 됨
자료
- 자료는 조사대상인 각 개체로부터 각 변수에 대하여 수집된 값들을 의미, 따라서 자료라고 하면 개체의 한 변수의 값을 말 할 떄도 있고 여러 개체의 여러 변수의 값들을 말 할 때도 있음
데이터의 유형
- 양적(quantitative) 데이터
- 무게, 온도, 점수 등과 같이 수치로 나타낼 수 있는 데이터
- 이산형(discrete) 데이터와 연속형(continuous) 데이터로 양분
- 질적(qualitative) 데이터
- 성별이나 취미와 같이 수치로 나타낼 수 없는 데이터
인문 사회적 현상이나 의견을 나타내는 데이터
- 주로 관측이나 조사를 통해 습득
- 실험은 필요하지 않으나, 모집단의 특성에 맞는 적절한 샘플링 방식을 선택
예) 인구 및 주택 등에 대한 조사(census), 여론조사. 교통량조사, 각종 설문조사 등
이공학에서 다루는 데이터
- 실험을 통해 습득
- 실험 데이터는 신기술 개발, 프로세스개선 등의 효과 입증 시
- 자원을 효율적으로 사용하고 오차를 최소화하기 위해 사전에 실험설계도 중요
실험설계(design of experiment)
- 실험 계획를 통해 원하는 데이터를 정확하게 수집하고 기록할 수 있도록 준비
- 데이터 수집의 규모와 대상 할당 방법 결정하고 적절한 데이터를 수집
- 이공학적 실험설계 뿐 아니라 설문 작성법 등도 여기에 포함
데이터의 척도(측정수준)
- 명목척도(nominal scale): 데이터가 순서나 크기의 의미를 갖지는 않는 경우
예) 전화번호, 등록번호, 혈액형, 주소, 성별(성별을 1, 2로 표기시에 1, 2sms 크기와 순
서에 무관함) 등
- 순서척도(ordinal scale): 데이터가 순서나 차례, 서열 등의 의미를 갖지만 간격에는 의미
가 없는 경우
예) 직급 계급 순위, 등급
- 구간척도(interval scale): 데이터의 순서뿐만 아니라 그 간격에도 의미가 있으나, 절대
영점이 없으므로 비율은 의미를 갖지 못하는 경우
예) 섭씨온도, 지능지수 등(섭씨 20도가 10도보다 두 배 덥다고 할 수 없고, 섭씨 0도는 열이 없는 온도가 아니라 얼음이 얼기 시작하는 온도임)
- 비율척도(ratio scale): 데이터에 절대 영점이 있으며 간격뿐만 아니라 비율에도 의미를 갖
는 경우
예) 절대온도, 농도, 몸무게, 키 등(20% 희석액은 10% 희석액에 비해 2배 농도임
기술통계와 추측통계
- 기술통계학(descriptive statistics)은 수집된 데이터를 정리하고 그 내용을 특정 짓는 몇가지의 대표치를 산정하거나 그래프로 나타내서 모집단의 특성을 파악하는 방법을 다루는 분야
- 추측통계(inferential statistics)는 실험이나 조사를 통해 얻은 데이터를 어떤 모집단에서 얻어낸 확률표본이라고 보고 그 통계량으로부터 모집단의 분포를 특정 짓는 모수를 추측하려는 것, 즉, 추측통계학은 데이터에 내포되어있는 정보를 분석하여 불확실한 사실에 대한 추론을 하는 분야임
