[ADsP] 7~9강 데이터 마트
02장 통계 분석
01 통계의 이해
1. 통계 개요
1) 통계와 표본조사
(1) 통계의 이해
- 분석하고자 하는 집단에 대해서 조사하거나 실험을 통해서 얻는 자료 또는 이의 요약된 형태
- 통계분석 : 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을
이용하여 의사결정(통계적 추론)을 하는 과정
(2) 표본조사
- 전수조사가 불가능할 경우 모집단의 특정 표본 집단을 선별하여 실시하는 조사
- 표본의 대표성 : 표본은 전체를 대표할 수 있어야 함
2) 표본추출 방법 ★★
(1) 단순 랜덤 추출법
- 가장 쉽고 단순한 방법으로 모집단에서 n개의 데이터를 무작위로 추출
- 예) 사다리 타기, 제비뽑기 등
(2) 계통 추출법
- 모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격(구간)을 설정하고 추출하는 방법
(3) 집락(군집 : Cluster) 추출법
- 데이터를 여러 집락으로 구분한 뒤, 단순 랜덤 추출법에 의해서 선택된 집락의 데이터를 표본으로 사용하는 방법
- 각 집락은 서로 동질적이며, 집락 내 데이터는 서로 이질적
(4) 층화 추출법
- 집락 추출법과 유사하나 반대의 성격을 지닌 추출법
- 각 집락은 이질적이며, 집락 내 데이터는 동질적
참고 : 비례 층화 추출법 vs 불비례 층화 추출법
* 비례 층화 추출법 : 전체 데이터의 분포를 반영하여 각 군집별 데이터를 추출하는 방법
* 전체 데이터의 분포를 반영하지 않고 각 군집에서 원하는 개수의 데이터를 추출하는 방법
3) 측정과 척도 ★★★
(1) 측정과 척도의 개념
- 측정 : 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것
- 척도 : 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구
(2) 척도의 종류(구분 이유 : 데이터 척도에 따른 분석 방법이 상이)
명목 척도 측정 대상이 어느 집단에 속하는지 나타내는 자료 성별, 지역 등
질척 척도
순서 척도(서열) 측적대상이 명목척도이면서 서열 관계를 갖는 자료 선호도, 신용도 등
구간 척도(등간) 속성의 양을 측정할 수 있으며 두 구간 사이에 의미가 있는 자료 온도, 지수 등
양적 척도
비율척도 측정 대상이 구간척도이면서 절대적 기준이 0이 존재, 사칙연산 가능자료 신장, 무게 등
4) 기술 통계와 추리 통계
(1) 기술 통계
- 표본 자체의 속성이나 특징을 파악하는데 중점을 두는 데이터 분석 통계
(2) 추리 통계
- 수집한 데이터를 바탕으로 ‘추론 및 예측’하는 통계 기법
참고 : 통계 기초 개념 ‘분산 과 표준편차’
* 편차 : 평균으로부터 양 또는 음수로 나는 차이
* 분산 : 평균으로부터 얼마만큼 떨어져 있는지 그 분포를 나타내는 숫자, 편차제곱합의 평균으로 표현
* 표준편차 : 분산에 루트를 씌워서 구한 값
2. 확률과 확률분포
1) 확률
(1) 확률 기초
- 확률 : 특정 사건 A가 발생할 수 있는 비율
- 조건부 확률 : 특정 사건 A가 발생했다는 사실을 전제로 특정 사건 B가 발생할 확률
(2) 독립사건과 배반사건
- 독립사건 : 서로에게 영향으로 주지 않는 두 개의 사건
- 배반사건 : 두 사건이 동시에 일어날 수 없는 사건
(3) 확률 변수와 확률분포 그리고 확률함수
- 확률변수 : 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수(함수)
- 확률함수 : 확률변수에 의해 정의된 실수를 확률에 대응시키는 함수
- 확률분포 : 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지
(이산확률분포(,확률질량함수) vs 연속확률분포(,확률밀도함수))
2) 이산확률분포(종류와 종류별 특징만 숙지)
(1) 베르누이 분포
- 확률번수 X가 취할 수 있는 값이 두 개인 경우
- ex) 하나의 동전을 던져서 앞면이 나올 확률
(2) 이항 분포 ★
- n번의 베르누이 시행에서 k번 성공할 확률의 분포
- ex) 하나의 동전을 3번 던져서 앞면이 2번 나올 확률 등
(3) 기하 분포
- 성공 확률이 P인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포
- 동전을 던져서 3번째에 앞면이 나올 확률 등
(4) 다항 분포
- 이항 분포의 확장한 개념, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포
- 주사위를 n번 던졌을 때 1의 눈이 p1의 확률로 x번 인 확률 등
(5) 포아송 분포 ★
- 단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포
- 8시간 동안 3번의 장난전화가 왔을 때 1시간 동안 장난전화가 2번 올 확률 등
3) 연속확률분포(종류와 종류별 특징만 숙지)
(1) 균일분포
- 모든 값에 대하여 같은 확률을 갖고 있는 분포
(2) 정규분포
- 가장 대표적인 연속형 확률분포 중 하나로 평균이 μ이고, 표준편차가 σ인 분포를 위미
- 분포의 모양은 평균값에 가장 많이 몰려 있고 평균에서 멀어질수록 빈도수가 낮은 종 모양의 그래프
참고 : 표준정규분포
* 평균이 0, 표준편차가 1인 정규분포
(3) t-분포
- 자유도가 n인 t 분포로 평균이 0이고, 좌우가 대칭인 종 모양으로 표준정규분포 비슷한 그래프를 보임
- 자유도가 커질수록 표준정규분포에 가까워진다
(4) 카이제곱 분포
- 표준정규분포를 따르는 확률버수의 제곱의 합 X는 자유도가 n인 카이제곱 분포
- 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정에서 활용
참고 : 동질성 검정
* 두 집단의 내부 구성비를 비교하는 것
(5) F 분포
- 서로 독립인 두 카이제곱 분포를 따르는 확률변수를 각각의 자유도로 나누었을 때
서로의 비율 X는 자유도가 k1, k2인 분포
- 등분산 검정 및 분산분석에서 활용
참고 : 둥뷴선 검정
* 두 모집단에 대하여 분산이 같은지 다른지를 검정하기 위한 가설검정
4) 기댓값, 분산, 표준편차
(1) 기댓값
- 특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 값의 평균 값
- 관측될 것이라고 기대되는 관측값에 대한 평균
- 확률변수의 편균, 즉 모평균은 통계분석에서 중요한 추론의 대상
(2) 분산
- 분산 : 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도(차이값의 제곱의 평균)
- 확률변수의 분산 : 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는
측도이며, 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 측도
(3) 표준편차
- 자료의 산포도를 나타내는 수치, 분산의 양의 제곱근으로 정의
- 분산과 같이 값이 클수록 기댓값으로부터 멀리 떨어져 있다는 의미
5) 꼭 알아두어야 하는 통계 개념
(1) 첨도외 왜도(그래프 참고하기!)
- 첨도 : 확룰분포의 뾰족한 정도를 나타내는 측도, 값이 3에 가까울수록 정규분포 모양
- 왜도 : 확률분포의 비대칭 정도를 나타내는 측도, 왜도값이 0인 경우에는 정규분포와 유사한 모습
(2) 공분산
- 두 확률 변수 X, Y의 상관 정도를 나타내는 값
(3) 상관계수
- 공분산의 문제를 해결한 값, -1과 1사이의 값을 가지며 공분산을 X의 표준편차와 Y의 표준편차 모두로 나눈 값