💙 요약 💙
- 통계분석
- 기술통계와 추측통계
- 확률과 확률분포
- 추정과 가설검정
- 차이 검정: t-검정, 분산분석
- 연관(상관) 검정: 카이제곱검정, 상관분석
- 인과 분석: 회귀분석
통계 : 사람, 사물, 사건, 사회적 현상 혹은 자연 현상 등을 조사하여 수집된 각종 데이터의 요약. 집단현상에 대한 구체적인 양적 기술을 반영하는 숫자.
통계학: 산술적 방법을 기초로 하여 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야.
학문적 관점
새로운 질문들, 연구 과제에 대하여 과학적으로 답을 찾아가는 방법
비즈니스 관점
성공가능성을 높이거나 실패 가능성을 낮추며 의사결정 지원.
넘치는 데이터로부터 인사이트를 얻는 방법을 제공
빅데이터, 인공지능 시대의 기본 학문
기술통계: 자료의 특징 파악.
(수집된 자료를 몇 개의 수치, 그림/표를 통해 정리요약하여 전반적인 특징을 파악)
추측통계: 관심 대상에 대한 일반화된 결론 제공
(모집단의 특성을 추론하여 이를 토대로 의사결정에 필요한 결론 제공.)
모집단과 표본
전수조사와 표본조사
모수와 통계량
모집단에 대한 설명력이 표본
표본의 요건: 모집단의 대표
표본의 크기가 클수록, 모집단에서 골고루 추출될수록 표본의 대표성이 커진다.
무작위 추출(random sampling): 편향성을 배제
오차(error): 연구(분석)결과를 왜곡시킴
표본오차(sampling error)
비표본오차(non-sampling error)
모집단의 특성과 이해 수준에 따라 표본 추출 방법이 정해지는 경우가 많다.
표본 추출 방법은 추출된 표본의 추출 확률 여부에 따라 비확률 추출방법과 확률 추출방법으로 구분된다.
이미지출처
확률표본추출방법은 표집 대상이 확률을 가지고 표본을 추출하는 방법이다.
이미지출처
단순임의추출(simple random sampling,srs법)
층화추출(Stratified Random Sampling)
계통추출(Systematic Sampling)
집락추출(Cluster Sampling)
데이터 타입과 역할에 따른 기술통계
수치형(Numerical Data) : 분포분석
- 데이터의 특성을 분포로 설명
- 주요 항목은 범위, 평균, 분산, 표준편차 등
- 대부분의 분석 방법이 특정 분포를 가정
- 대표(중심경향),산포,왜도, 첨도
범주형(Categorical Data) : 빈도분석
- 범주별 출현 빈도에 기반한 분석
- 주요 항목은 빈도, 비율, 누적비율 등
- 특정 분포 가정 없이 빈도에 기반한 확률을 사용
데이터 타입과 역할에 따른 추측통계: 독립변수와 종속변수의 데이터 타입에 따라 상이
참고) 독립변수와 종속변수