[ADsP] 7~9강 통계의 이해

Data_Student·2024년 10월 25일
0

ADsP

목록 보기
7/11

[ADsP] 7~9강 데이터 마트

02장 통계 분석

01 통계의 이해

1. 통계 개요

1) 통계와 표본조사
 (1) 통계의 이해
  - 분석하고자 하는 집단에 대해서 조사하거나 실험을 통해서 얻는 자료 또는 이의 요약된 형태
  - 통계분석 : 특정집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계분석 방법을 
              이용하여 의사결정(통계적 추론)을 하는 과정
 (2) 표본조사
  - 전수조사가 불가능할 경우 모집단의 특정 표본 집단을 선별하여 실시하는 조사 
  - 표본의 대표성 : 표본은 전체를 대표할 수 있어야 함

2) 표본추출 방법 ★★
 (1) 단순 랜덤 추출법
  - 가장 쉽고 단순한 방법으로 모집단에서 n개의 데이터를 무작위로 추출
  - 예) 사다리 타기, 제비뽑기 등
 (2) 계통 추출법
  - 모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격(구간)을 설정하고 추출하는 방법
 (3) 집락(군집 : Cluster) 추출법
  - 데이터를 여러 집락으로 구분한 뒤, 단순 랜덤 추출법에 의해서 선택된 집락의 데이터를 표본으로 사용하는 방법
  - 각 집락은 서로 동질적이며, 집락 내 데이터는 서로 이질적
 (4) 층화 추출법
  - 집락 추출법과 유사하나 반대의 성격을 지닌 추출법
  - 각 집락은 이질적이며, 집락 내 데이터는 동질적
  참고 : 비례 층화 추출법 vs 불비례 층화 추출법
   * 비례 층화 추출법 : 전체 데이터의 분포를 반영하여 각 군집별 데이터를 추출하는 방법
   * 전체 데이터의 분포를 반영하지 않고 각 군집에서 원하는 개수의 데이터를 추출하는 방법

3) 측정과 척도 ★★★
 (1) 측정과 척도의 개념
  - 측정 : 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것
  - 척도 : 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구
 (2) 척도의 종류(구분 이유 : 데이터 척도에 따른 분석 방법이 상이)
          명목 척도       측정 대상이 어느 집단에 속하는지 나타내는 자료  성별, 지역 등
 질척 척도 
          순서 척도(서열) 측적대상이 명목척도이면서 서열 관계를 갖는 자료 선호도, 신용도 등
          구간 척도(등간) 속성의 양을 측정할 수 있으며 두 구간 사이에 의미가 있는 자료  온도, 지수 등
 양적 척도
          비율척도        측정 대상이 구간척도이면서 절대적 기준이 0이 존재, 사칙연산 가능자료  신장, 무게 등

4) 기술 통계와 추리 통계
 (1) 기술 통계
  - 표본 자체의 속성이나 특징을 파악하는데 중점을 두는 데이터 분석 통계
 (2) 추리 통계
  - 수집한 데이터를 바탕으로 ‘추론 및 예측’하는 통계 기법
  참고 : 통계 기초 개념 ‘분산 과 표준편차’
   * 편차 : 평균으로부터 양 또는 음수로 나는 차이
   * 분산 : 평균으로부터 얼마만큼 떨어져 있는지 그 분포를 나타내는 숫자, 편차제곱합의 평균으로 표현
   * 표준편차 : 분산에 루트를 씌워서 구한 값

2. 확률과 확률분포

1) 확률
 (1) 확률 기초
  - 확률 : 특정 사건 A가 발생할 수 있는 비율
  - 조건부 확률 : 특정 사건 A가 발생했다는 사실을 전제로 특정 사건 B가 발생할 확률
 (2) 독립사건과 배반사건
  - 독립사건 : 서로에게 영향으로 주지 않는 두 개의 사건
  - 배반사건 : 두 사건이 동시에 일어날 수 없는 사건
 (3) 확률 변수와 확률분포 그리고 확률함수
  - 확률변수 : 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수(함수)
  - 확률함수 : 확률변수에 의해 정의된 실수를 확률에 대응시키는 함수
  - 확률분포 : 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지
              (이산확률분포(,확률질량함수) vs 연속확률분포(,확률밀도함수))

 2) 이산확률분포(종류와 종류별 특징만 숙지)
 (1) 베르누이 분포
  - 확률번수 X가 취할 수 있는 값이 두 개인 경우
  - ex) 하나의 동전을 던져서 앞면이 나올 확률
 (2) 이항 분포 ★
  - n번의 베르누이 시행에서 k번 성공할 확률의 분포
  - ex) 하나의 동전을 3번 던져서 앞면이 2번 나올 확률 등
 (3) 기하 분포
  - 성공 확률이 P인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포
  - 동전을 던져서 3번째에 앞면이 나올 확률 등
 (4) 다항 분포
  - 이항 분포의 확장한 개념, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포 
  - 주사위를 n번 던졌을 때 1의 눈이 p1의 확률로 x번 인 확률 등
 (5) 포아송 분포 ★
  - 단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포
  - 8시간 동안 3번의 장난전화가 왔을 때 1시간 동안 장난전화가 2번 올 확률 등

 3) 연속확률분포(종류와 종류별 특징만 숙지)
 (1) 균일분포
  - 모든 값에 대하여 같은 확률을 갖고 있는 분포
 (2) 정규분포
  - 가장 대표적인 연속형 확률분포 중 하나로 평균이 μ이고, 표준편차가 σ인 분포를 위미
  - 분포의 모양은 평균값에 가장 많이 몰려 있고 평균에서 멀어질수록 빈도수가 낮은 종 모양의 그래프
   참고 : 표준정규분포
    * 평균이 0, 표준편차가 1인 정규분포
 (3) t-분포
  - 자유도가 n인 t 분포로 평균이 0이고, 좌우가 대칭인 종 모양으로 표준정규분포 비슷한 그래프를 보임
  - 자유도가 커질수록 표준정규분포에 가까워진다
 (4) 카이제곱 분포
  - 표준정규분포를 따르는 확률버수의 제곱의 합 X는 자유도가 n인 카이제곱 분포
  - 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정에서 활용
   참고 : 동질성 검정
    * 두 집단의 내부 구성비를 비교하는 것
 (5) F 분포
  - 서로 독립인 두 카이제곱 분포를 따르는 확률변수를 각각의 자유도로 나누었을 때 
    서로의 비율 X는 자유도가 k1, k2인 분포
  - 등분산 검정 및 분산분석에서 활용
   참고 : 둥뷴선 검정
     * 두 모집단에 대하여 분산이 같은지 다른지를 검정하기 위한 가설검정

 4) 기댓값, 분산, 표준편차
 (1) 기댓값
  - 특정 사건이 시행되었을 때 확률변수 X가 취할 수 있는 값의 평균 값
  - 관측될 것이라고 기대되는 관측값에 대한 평균
  - 확률변수의 편균, 즉 모평균은 통계분석에서 중요한 추론의 대상
 (2) 분산
  - 분산 : 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도(차이값의 제곱의 평균)
  - 확률변수의 분산 : 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 
                   측도이며, 앞으로 측정 또는 관측될 가능성이 있는 값들에 대한 측도
 (3) 표준편차
  - 자료의 산포도를 나타내는 수치, 분산의 양의 제곱근으로 정의
  - 분산과 같이 값이 클수록 기댓값으로부터 멀리 떨어져 있다는 의미

 5) 꼭 알아두어야 하는 통계 개념
 (1) 첨도외 왜도(그래프 참고하기!)
  - 첨도 : 확룰분포의 뾰족한 정도를 나타내는 측도, 값이 3에 가까울수록 정규분포 모양
  - 왜도 : 확률분포의 비대칭 정도를 나타내는 측도, 왜도값이 0인 경우에는 정규분포와 유사한 모습
 (2) 공분산
  - 두 확률 변수 X, Y의 상관 정도를 나타내는 값
 (3) 상관계수
  - 공분산의 문제를 해결한 값, -1과 1사이의 값을 가지며 공분산을 X의 표준편차와 Y의 표준편차 모두로 나눈 값

0개의 댓글