[10주차] 통계_04

심하림·2023년 7월 11일

통계

목록 보기
4/4

꼭 기억하기
. 상관분석
. 회귀분석의 기본적인 개념이해, 모형을 만들고 해석하는 것

📍 가설 검정 = 가설(Hypothesis) + 검정(Testing)

🔖 가설검정의 유의수준 정의

가설(hypothesis)

  • 주어진 사실 또는 조사하려고 하는 사실에 대한 주장 또는 추측을 가설이라고 함

  • 통계학에서는 특히 모수를 추청 할 때 모수가 어떠하다는 증명하고 싶은 추축이나 주장을 가설이라고 함

  • 귀무 가설(Null hypothesis : H0H_0)

    • 기존의 사실(아무것도 없다, 의미가 없다)
    • 대립가설과 반대되는 가설로 연구하고자 하는 가설의 반대의 가설로 귀모 가설은 연구 목적이 아님
  • 대립 가설(Alternative hypothesis : H1H_1)

    • 데이터로 부터 나온 주장하고 싶은 가설 또는 연구의 목적으로 귀무가설의 반대

가설검증과 유의수준

  • 제1종 오류(type I error)

    • 귀무가설이 참이지만, 귀무가설을 기각하는
    • H0H_0를 기각할 확률이 α\alpha라고 하면 채택하게 될 확률은 1alpha1-alpha로 표기할 수 있음
    • 제1종 오류를 범할 확률의 최대허용 한계를 유의수준이라고 하며, α\alpha라고 표시
  • 제2종 오류(type II error)

    • 귀무가설이 기각해야 하지만, 귀무가설을 채택하는 오류
  • 검정통계량

    • 귀무가설이 참이라는 가정하에 얻은 통계량
    • 검정결과 대립가설을 선택하게 되면 귀무가설을 기각(reject)함
    • 검정결과 귀무가설을 선택하게 되면 귀무가설을 기각하지 못한다고 표현함
  • P-value

    • 귀무가설이 참일 확률
    • 0~1사이의 표준화된 지표(확률값)
    • 귀무가설이 참이라는 가정하에 통계량이 귀무가설을 얼마나 지지 하는지를 나타낼 확률
  • 기각역(reject region)

    • 귀무가설을 기각시키는 검정통계량의 관측값의 영역
  • 가설 검정의 절차

    1) 가설 수립 : H0H_0: 코로나 백신이 효과가 없다. H1H_1: 코로나 백신이 효과가 있다
    2) 유의 수준 결정 : 유의 수준 α\alpha정의
    3) 기각역 설정
    4) 검정 통계량 계산
    5) 의사 결정

  • 양측검정(two-side test)

    • 대립가설의 내용이 같지 않다 또는 차이가 있다 등의 양쪽 방향의 주장
    • A백신과 B백신의 코로나 면역력에는 차이가 있다
    • A팀과 B팀의 평균 연봉은 차이가 있다
  • 단측검정(one-side test)

    • 한쪽만 검증하는 방식으로 대립가설의 내용이 크다 또는 작다 처럼 한쪽 방향의 주장
    • A제품의 수율이 B제품의 수율보다 크다
    • A팀의 평균 연봉이 B팀의 평균 연봉보다 크다

🔖 단일표본에 대한 가설검정

모평균 가설검정 - 모분산을 아는 경우

  • 예시

모평균 가설검정 - 모분산을 모르는 경우(소표본)

모평균 가설검정

  • 예시

🔖 두개의 표본에 대한 가설 검정

대표본 - 모분산을 아는 경우

  • 예시

소표본 - 모분산을 모르는 경우

  • 예시

대응 비교

📍 범주형 자료 분석

🔖 적합도 검정

  • 범주형 자료(categorical data)

    • 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류 시켜 도수로 주어진 데이터
  • 범주형 자료 분석(categorical data analysis)

    • 범주형 자료에 대한 통계적 추론 방법
    • 범주형 자료 분석은 카이제곱 검정으로 추론함
  • t-test와 카이제곱 검정의 차이

    • t-test : 연속형 변수의 차이에 대한 검정
    • 명목형 변수에 대한 검정시 카이제곱 검정을 사용
  • 적합도 검정(goodness of fit test)

    • 관측된 값들이 추론하는 분포를 따르고 있는지 검정, 한 개의 요인을 대상으로 검정
    • 예 ) 멘델의 유전 법칙에 부합하는지 검사하기 위해 테스트할 때, 완두콩의 잡종 비율이 A:B:C = 1:1:2 였다고 가정해 보자. 100개의 콩을 조사한 결과 A가 25 B가 20 C가 55개 였다면 앞선 가정이 맞는지 유의수준 0.05에서 검정해보자
  • 프로그램 'R'을 사용 '적합도검정' 계산법

독립성 검정(test of independence)

  • 관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립)를 검정
  • 예 )지지하는 정당과 사는 지역(A, B, C구)은 관련이 있는지 알아보기 위해서 1000명을 뽑아서 조사한 자료가 있을 때, 지지 정당과 사는 지역이 독립인지 유의수준 0.05에서 검정해보자

동질성 검정(test of homogeneity)

  • 서로 다른 세개 이상의 모집단으로 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정
  • 예 )남녀의 핸드폰 선호가 동일한지 조사하기 위해서 남자 100명, 여자 200명을 조사하였다. 유의 수준 0.05에서 동일한지 조사해보자
  • 우리는 일반적으로 그러면 어떻게 분석을 하고 있을까?
  • 어떤 관점으로 분석을 해야 하는가?
  • 통계청 DB조회
  • 시간에 흐름에 따라서 어떤 산업의 거래액이 증가하고 있는가?
  • 어떤 업종이 비중이 떨어지는가?

📍 상관 분석

🔖 상관 분석

  • 상관관계(correlation coefficient)

    • 두 변수간의 함수 관계가 선형적인 관계가 있는지 파악할 수 있는 측도가 상관계수 이다
      1) 상관계수 1p1-1 \leq p \leq 1
      2) 상관계수가 1에 가까울 수록 양의 상관관계가 강함
      3) 상관계수가 -1에 가까울 수록 음의 상관관계가 강함
      4) 상관계수가 0에 가까울 수록 두 변수 간의 상관관계가 존재하지 않음
      5) 상관계수가 0이라는 것은 두 변수 간에 선형 관계가 존재 하지 않는 다는 것임
  • 표본상관관계(sample correlation coefficient)

    • 데이터가 (x1,y1),(x2,y2),...,(xi,yi)(x_1, y_1), (x_2, y_2),..., (x_i, y_i)과 같이 i개의 쌍으로 주어 졌을때
    • 예시 (r = 기울기 계산)

📍 회귀 분석

회귀 분석(regression analysis)

  • 변수들간의 함수식 관계를 선형으로 추론하는 통계적 분석 방법으로 독립변수를 통해 종속변수를 예측하는 방법
  • 비선형인 함수적 관계일 경우 비선형회귀 (nonlinear regression)를 사용
  • 예 ) 마케팅 비용에 따른 매출액을 예측

종족 변수(dependent variable)

  • 다른 변수의 영향을 받는 변수로 반응변수라 표현하기도 하며, 예측을 하고자 하는 변수
  • 예 ) 매출액, 수율, 불량율 등

독립 변수(independent variable)

  • 종족변수에 영향을 주는 변수로 설명변수라 표현하기도 하며, 예측하는 값을 설명해주는 변수

🔖 희귀모델링 분류

X변수의 수, X변수와 Y변수의 선형성 여부에 따라 구분


1) 단순, 선형

단순 회귀분석(simple regression analysis)

  • 하나의 독립변수로 종속변수를 예측하는 회귀 모형을 만드는 방법을 단순 회귀분석이라고 함
  • 단순 회귀분석 예시
    • 회귀선으로부터 각 관측치의 오차를 최소로하는 선을 찾는 것이 핵심
    • 오차를 최소로 하여 β0,β1\beta_0, \beta_1을 추정하는 방법을 최소제곱법(method of least squares)이라 함

최소 제곱법

  • 희귀 모형의 모수 β0,β1\beta_0, \beta_1을 추정하는 방법중 하나를 최소 제곱법이라고 하며, 회귀 모형의 모수를 회귀 계수라고 함
  • 최소 제곱법을 통해 구한 추정량을 최소제곱추정량(LSE)라고 하며, 최소제곱법을 통해 회귀모형의 모수를 추정하는 것을 OLS(Ordinary Least Square)라고 함
  • 회귀 모형의 오차에 대하여 기본 가정이 있음
    1) 정규성 가정 : 오차항은 평균이 0인 정규 분포를 따름
    2) 등분산성 가정 : 오차항의 분산은 모든 관측값 xix_i에 상관없이 일정함
    3) 독립성 가정 : 모든 오차항은 서로 독립임
    - 엑셀로 작업

분산 분석표

  • 추정된 회귀식에 대한 유의성 여부는 분산분석을 통해서 회귀식의 유의성을 판단 할 수 있음
  • 제곱합을 각각의 자유도 나눈 값을 평균제곱(mean square)라고 함
  • 평균제곱오차(mean square error) = SSE/(n-2) = σ2^\widehat{\sigma^2}
  • 회귀평균제곱(regression mean square) = SSR/1

결정 계수(Coefficient of determination : R2R^2)

  • 추정된 회귀식이 얼마나 전체 데이터에 대해서 적합한지 (설명력이 있는지)를 수치로 제공하는 값
  • 0과 1사이에 값으로 1에 가까울수록 추정된 모형이 설명력이 높다고 할 수 있음
  • 0이라는 것은 추정된 모형이 설명력이 전혀 없다고 할 수 있음

수정 결정 계수(adjust R2R^2)

  • R2R^2은 유의하지 않은 변수가 추가되어도 항상 증가됨(다중회귀)
  • Adjust R2R^2은 특정 계수를 곱해 줌으로서 R2R^2가 항상 증가하지 않도록 함
  • 보통 모형 간의 성능을 비교할 때 사용함
  • Boston Housing Price (보스턴 주택 가격 데이터)

    medv : 주택가격
    crim: 자치시(town) 별 1인당 범죄율
    RM: 주택 1가구당 평균 방의 개수

잔차 분석

a) 선형성을 벗어나는 경우

  • 종속변수와 독립변수가 선형 관계가 아님

b) 등분산성이 벗어난 경우

  • 일반적인 회귀모형 사용 불가능
  • 등분산성 가정 위배

c) 독립성에 벗어나는 경우

  • 시계열 데이터 또는 관측 순서에 영향을 받는 데이터 에서는 독립성을 담보 할 수 없음(Durbin-Watson test 실행)

d) 정규성을 벗어 나는 경우

  • Normal Q-Q plot으로도 확인
  • 잔차가 -2 ~ +2 사이에 분포 해야 함
  • 벗어나는 자료가 많으면 독립성 가해 위배

실습


2) 다중, 선형

다중 회귀분석(multiple regression analysis)

  • 2개 이상의 독립변수로 종속 변수를 예측하는 회귀 모형을 만드는 방법을 다중 회귀분석이라고 함

0개의 댓글