[10주차] 통계_04

심하림·2023년 7월 11일

통계

목록 보기

4/4

꼭 기억하기
. 상관분석
. 회귀분석의 기본적인 개념이해, 모형을 만들고 해석하는 것

📍 가설 검정 = 가설(Hypothesis) + 검정(Testing)

🔖 가설검정의 유의수준 정의

가설(hypothesis)

주어진 사실 또는 조사하려고 하는 사실에 대한 주장 또는 추측을 가설이라고 함
통계학에서는 특히 모수를 추청 할 때 모수가 어떠하다는 증명하고 싶은 추축이나 주장을 가설이라고 함
귀무 가설(Null hypothesis : $H_0$ )
- 기존의 사실(아무것도 없다, 의미가 없다)
- 대립가설과 반대되는 가설로 연구하고자 하는 가설의 반대의 가설로 귀모 가설은 연구 목적이 아님
대립 가설(Alternative hypothesis : $H_1$ )
- 데이터로 부터 나온 주장하고 싶은 가설 또는 연구의 목적으로 귀무가설의 반대

가설검증과 유의수준

제1종 오류(type I error)
- 귀무가설이 참이지만, 귀무가설을 기각하는
- $H_0$ 를 기각할 확률이 $\alpha$ 라고 하면 채택하게 될 확률은 $1-alpha$ 로 표기할 수 있음
- 제1종 오류를 범할 확률의 최대허용 한계를 유의수준이라고 하며, $\alpha$ 라고 표시
제2종 오류(type II error)
- 귀무가설이 기각해야 하지만, 귀무가설을 채택하는 오류
검정통계량
- 귀무가설이 참이라는 가정하에 얻은 통계량
- 검정결과 대립가설을 선택하게 되면 귀무가설을 기각(reject)함
- 검정결과 귀무가설을 선택하게 되면 귀무가설을 기각하지 못한다고 표현함
P-value
- 귀무가설이 참일 확률
- 0~1사이의 표준화된 지표(확률값)
- 귀무가설이 참이라는 가정하에 통계량이 귀무가설을 얼마나 지지 하는지를 나타낼 확률
기각역(reject region)
- 귀무가설을 기각시키는 검정통계량의 관측값의 영역
가설 검정의 절차

1) 가설 수립 : $H_0$ : 코로나 백신이 효과가 없다. $H_1$ : 코로나 백신이 효과가 있다
2) 유의 수준 결정 : 유의 수준 $\alpha$ 정의
3) 기각역 설정
4) 검정 통계량 계산
5) 의사 결정
양측검정(two-side test)
- 대립가설의 내용이 같지 않다 또는 차이가 있다 등의 양쪽 방향의 주장
- A백신과 B백신의 코로나 면역력에는 차이가 있다
- A팀과 B팀의 평균 연봉은 차이가 있다
단측검정(one-side test)
- 한쪽만 검증하는 방식으로 대립가설의 내용이 크다 또는 작다 처럼 한쪽 방향의 주장
- A제품의 수율이 B제품의 수율보다 크다
- A팀의 평균 연봉이 B팀의 평균 연봉보다 크다

🔖 단일표본에 대한 가설검정

모평균 가설검정 - 모분산을 아는 경우

예시

모평균 가설검정 - 모분산을 모르는 경우(소표본)

모평균 가설검정

예시

🔖 두개의 표본에 대한 가설 검정

대표본 - 모분산을 아는 경우

예시

소표본 - 모분산을 모르는 경우

예시

대응 비교

📍 범주형 자료 분석

🔖 적합도 검정

범주형 자료(categorical data)
- 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류 시켜 도수로 주어진 데이터
범주형 자료 분석(categorical data analysis)
- 범주형 자료에 대한 통계적 추론 방법
- 범주형 자료 분석은 카이제곱 검정으로 추론함
t-test와 카이제곱 검정의 차이
- t-test : 연속형 변수의 차이에 대한 검정
- 명목형 변수에 대한 검정시 카이제곱 검정을 사용
적합도 검정(goodness of fit test)
- 관측된 값들이 추론하는 분포를 따르고 있는지 검정, 한 개의 요인을 대상으로 검정
- 예 ) 멘델의 유전 법칙에 부합하는지 검사하기 위해 테스트할 때, 완두콩의 잡종 비율이 A:B:C = 1:1:2 였다고 가정해 보자. 100개의 콩을 조사한 결과 A가 25 B가 20 C가 55개 였다면 앞선 가정이 맞는지 유의수준 0.05에서 검정해보자
프로그램 'R'을 사용 '적합도검정' 계산법

독립성 검정(test of independence)

관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립)를 검정
예 )지지하는 정당과 사는 지역(A, B, C구)은 관련이 있는지 알아보기 위해서 1000명을 뽑아서 조사한 자료가 있을 때, 지지 정당과 사는 지역이 독립인지 유의수준 0.05에서 검정해보자

동질성 검정(test of homogeneity)

서로 다른 세개 이상의 모집단으로 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정
예 )남녀의 핸드폰 선호가 동일한지 조사하기 위해서 남자 100명, 여자 200명을 조사하였다. 유의 수준 0.05에서 동일한지 조사해보자

우리는 일반적으로 그러면 어떻게 분석을 하고 있을까?

어떤 관점으로 분석을 해야 하는가?

통계청 DB조회

시간에 흐름에 따라서 어떤 산업의 거래액이 증가하고 있는가?

어떤 업종이 비중이 떨어지는가?

📍 상관 분석

🔖 상관 분석

상관관계(correlation coefficient)
- 두 변수간의 함수 관계가 선형적인 관계가 있는지 파악할 수 있는 측도가 상관계수 이다
  1) 상관계수 $-1 \leq p \leq 1$
  2) 상관계수가 1에 가까울 수록 양의 상관관계가 강함
  3) 상관계수가 -1에 가까울 수록 음의 상관관계가 강함
  4) 상관계수가 0에 가까울 수록 두 변수 간의 상관관계가 존재하지 않음
  5) 상관계수가 0이라는 것은 두 변수 간에 선형 관계가 존재 하지 않는 다는 것임
표본상관관계(sample correlation coefficient)
- 데이터가 $(x_1, y_1), (x_2, y_2),..., (x_i, y_i)$ 과 같이 i개의 쌍으로 주어 졌을때
- 예시 (r = 기울기 계산)

📍 회귀 분석

회귀 분석(regression analysis)

변수들간의 함수식 관계를 선형으로 추론하는 통계적 분석 방법으로 독립변수를 통해 종속변수를 예측하는 방법
비선형인 함수적 관계일 경우 비선형회귀 (nonlinear regression)를 사용
예 ) 마케팅 비용에 따른 매출액을 예측

종족 변수(dependent variable)

다른 변수의 영향을 받는 변수로 반응변수라 표현하기도 하며, 예측을 하고자 하는 변수
예 ) 매출액, 수율, 불량율 등

독립 변수(independent variable)

종족변수에 영향을 주는 변수로 설명변수라 표현하기도 하며, 예측하는 값을 설명해주는 변수

🔖 희귀모델링 분류

X변수의 수, X변수와 Y변수의 선형성 여부에 따라 구분

1) 단순, 선형

단순 회귀분석(simple regression analysis)

하나의 독립변수로 종속변수를 예측하는 회귀 모형을 만드는 방법을 단순 회귀분석이라고 함
단순 회귀분석 예시
- 회귀선으로부터 각 관측치의 오차를 최소로하는 선을 찾는 것이 핵심
- 오차를 최소로 하여 $\beta_0, \beta_1$ 을 추정하는 방법을 최소제곱법(method of least squares)이라 함

최소 제곱법

희귀 모형의 모수 $\beta_0, \beta_1$ 을 추정하는 방법중 하나를 최소 제곱법이라고 하며, 회귀 모형의 모수를 회귀 계수라고 함
최소 제곱법을 통해 구한 추정량을 최소제곱추정량(LSE)라고 하며, 최소제곱법을 통해 회귀모형의 모수를 추정하는 것을 OLS(Ordinary Least Square)라고 함
회귀 모형의 오차에 대하여 기본 가정이 있음
1) 정규성 가정 : 오차항은 평균이 0인 정규 분포를 따름
2) 등분산성 가정 : 오차항의 분산은 모든 관측값 $x_i$ 에 상관없이 일정함
3) 독립성 가정 : 모든 오차항은 서로 독립임
- 엑셀로 작업

분산 분석표

추정된 회귀식에 대한 유의성 여부는 분산분석을 통해서 회귀식의 유의성을 판단 할 수 있음
제곱합을 각각의 자유도 나눈 값을 평균제곱(mean square)라고 함
평균제곱오차(mean square error) = SSE/(n-2) = $\widehat{\sigma^2}$
회귀평균제곱(regression mean square) = SSR/1

결정 계수(Coefficient of determination : $R^2$ )

추정된 회귀식이 얼마나 전체 데이터에 대해서 적합한지 (설명력이 있는지)를 수치로 제공하는 값
0과 1사이에 값으로 1에 가까울수록 추정된 모형이 설명력이 높다고 할 수 있음
0이라는 것은 추정된 모형이 설명력이 전혀 없다고 할 수 있음

수정 결정 계수(adjust $R^2$ )

$R^2$ 은 유의하지 않은 변수가 추가되어도 항상 증가됨(다중회귀)
Adjust $R^2$ 은 특정 계수를 곱해 줌으로서 $R^2$ 가 항상 증가하지 않도록 함
보통 모형 간의 성능을 비교할 때 사용함
Boston Housing Price (보스턴 주택 가격 데이터)
medv : 주택가격
crim: 자치시(town) 별 1인당 범죄율
RM: 주택 1가구당 평균 방의 개수

잔차 분석

a) 선형성을 벗어나는 경우

종속변수와 독립변수가 선형 관계가 아님

b) 등분산성이 벗어난 경우

일반적인 회귀모형 사용 불가능
등분산성 가정 위배

c) 독립성에 벗어나는 경우

시계열 데이터 또는 관측 순서에 영향을 받는 데이터 에서는 독립성을 담보 할 수 없음(Durbin-Watson test 실행)

d) 정규성을 벗어 나는 경우

Normal Q-Q plot으로도 확인
잔차가 -2 ~ +2 사이에 분포 해야 함
벗어나는 자료가 많으면 독립성 가해 위배

실습

2) 다중, 선형

다중 회귀분석(multiple regression analysis)

2개 이상의 독립변수로 종속 변수를 예측하는 회귀 모형을 만드는 방법을 다중 회귀분석이라고 함

심하림

이전 포스트

[10주차] 통계_04

통계

📍 가설 검정 = 가설(Hypothesis) + 검정(Testing)

🔖 가설검정의 유의수준 정의

가설(hypothesis)

귀무 가설(Null hypothesis : H0H_0H0​)

대립 가설(Alternative hypothesis : H1H_1H1​)

가설검증과 유의수준

제1종 오류(type I error)

제2종 오류(type II error)

검정통계량

P-value

기각역(reject region)

가설 검정의 절차

양측검정(two-side test)

단측검정(one-side test)

🔖 단일표본에 대한 가설검정

모평균 가설검정 - 모분산을 아는 경우

모평균 가설검정 - 모분산을 모르는 경우(소표본)

모평균 가설검정

🔖 두개의 표본에 대한 가설 검정

대표본 - 모분산을 아는 경우

소표본 - 모분산을 모르는 경우

대응 비교

📍 범주형 자료 분석

🔖 적합도 검정

범주형 자료(categorical data)

범주형 자료 분석(categorical data analysis)

t-test와 카이제곱 검정의 차이

적합도 검정(goodness of fit test)

프로그램 'R'을 사용 '적합도검정' 계산법

독립성 검정(test of independence)

동질성 검정(test of homogeneity)

📍 상관 분석

🔖 상관 분석

상관관계(correlation coefficient)

표본상관관계(sample correlation coefficient)

📍 회귀 분석

회귀 분석(regression analysis)

종족 변수(dependent variable)

독립 변수(independent variable)

🔖 희귀모델링 분류

1) 단순, 선형

단순 회귀분석(simple regression analysis)

최소 제곱법

분산 분석표

결정 계수(Coefficient of determination : R2R^2R2)

수정 결정 계수(adjust R2R^2R2)

Boston Housing Price (보스턴 주택 가격 데이터)

잔차 분석

실습

2) 다중, 선형

다중 회귀분석(multiple regression analysis)

[10주차] 통계_03

0개의 댓글

귀무 가설(Null hypothesis : $H_0$ )

대립 가설(Alternative hypothesis : $H_1$ )

`프로그램 'R'`을 사용 '적합도검정' 계산법

결정 계수(Coefficient of determination : $R^2$ )

수정 결정 계수(adjust $R^2$ )