Ch2 기초통계_Advanced 01-10 (심화 1-6)

김민지·2023년 5월 3일
0

Part 08. 통계

목록 보기
3/3
  1. 가설검정
  • 가설 검정 = 가설(Hypothesis) + 검정(Testing)

  • 가설(hypothesis) : 주어진 사실 또는 조사하려고 하는 사실에 대한 주장 또는 추측을 가설이라고 함

  • 통계학에서는 특히 모수를 추정할 때, 모수가 어떠하다는 증명하고 싶은 추측이나 주장을 가설이라고 함

  • 귀무 가설(Null hypothesis)
    : 기존의 사실(아무것도 없다, 의미가 없다)
    -> 대립가설과 반대되는 가설로, 연구하고자 하는 가설의 반대의 가설로 귀무 가설은 연구목적이 아님

  • 대립 가설(Alternative hypothesis)
    : 데이터로부터 나온 주장하고 싶은 가설 또는 연구의 목적으로 귀무가설의 반대

  • 제1종 오류 : 귀무가설이 참이지만, 귀무가설을 기각하는 오류

  • 제2종 오류 : 귀무가설을 기각해야 하지만, 귀무가설을 채택하는 오류

  • 검정통계량 : 귀무가설이 참이라는 가정하에 얻은 통계량
    -> 검정 결과 대립가설을 선택하게 되면 귀무가설을 기각함
    -> 검정 결과 귀무가설을 선택하게 되면 귀무가설을 기각하지 못한다고 표현함

  • P-value : 귀무가설이 참일 확률
    -> 0~1 사이의 표준화된 지표(확률값)
    -> 귀무가설이 참이라는 가정하에 통계량이 귀무가설을 얼마나 지지하는지를 나타낼 확률

  • 기각역(reject region) : 귀무가설을 기각시키는 검정통계량의 관측값의 영역

  • 가설 검정의 절차
    (1) 가설 수립
    (2) 유의 수준 결정
    (3) 기각역 설정
    (4) 검정통계량 계산
    (5) 의사 결정

  • 양측검정(two-side test) : 대립가설의 내용이 같지 않다 또는 차이가 있다 등의 양쪽 방향의 주장
    -> ex) A백신과 B백신의 코로나 면역력에는 차이가 있다, A팀과 B팀의 평균 연봉은 차이가 있다

  • 단측검정(one-side test) : 한쪽만 검증하는 방식으로 대립가설의 내용이 크다 또는 작다 처럼 한쪽 방향의 주장
    -> ex) A제품의 수율이 B제품의 수율보다 크다, A팀의 평균 연봉이 B팀의 평균 연봉보다 크다

  1. 범주형 자료분석
  • 범주형 자료(categorical data) : 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류시켜 도수로 주어진 데이터

  • 범주형 자료 분석 : 범주형 자료에 대한 통계적 추론 방법. 범주형 자료 분석은 카이제곱 검정으로 추론함.

  • 적합도 검정(goodness of fit test)
    : 관측된 값들이 추론하는 분포를 따르고 있는지 검정, 한 개의 요인을 대상으로 검정

  • 독립성 검정(test of independence)
    : 관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립)를 검정

  • 동질성 검정(test of homogeneity)
    : 서로 다른 세 개 이상의 모집단으로 관측된 값들이 범주 내에서 동일한 비율을 나타내는지 검정

  1. 상관분석
  • 상관관계(correlation coefficient)
    : 두 변수간의 함수 관계가 선형적인 관계가 있는지 파악할 수 있는 측도
    1) 상관계수 -1 <= p <= 1
    2) 상관계수가 1에 가까울수록 양의 상관관계가 강함
    3) 상관계수가 -1에 가까울수록 음의 상관관계가 강함
    4) 상관계수가 0에 가까울수록 두 변수 간의 상관관계가 존재하지 않음
    5) 상관계수가 0이라는 것은 두 변수 간의 선형관계가 존재하지 않는다는 것임

  • 표본상관관계(sample correlation coefficient)

  1. 회귀분석
  • 회귀분석(regression analysis)
    : 변수들간의 함수적 관계를 선형으로 추론하는 통계적 분석 방법으로, 독립변수를 통해 종속변수를 예측하는 방법. 비선형인 함수적 관계일 경우, 비선형회귀를 사용

  • 종속변수(dependent variable)
    : 다른 변수의 영향을 받는 변수로, 반응변수라 표현하기도 하며, 예측을 하고자 하는 변수

  • 독립변수(independent variable)
    : 종속변수에 영향을 주는 변수로, 설명변수라 표현하기도 하며, 예측하는 값을 설명해주는 변수

  • 단순 회귀분석(simple regression analysis)
    : 하나의 독립변수로 종속변수를 예측하는 회귀모형을 만드는 방법

  • 다중 회귀분석(multiple regression analysis)
    : 2개 이상의 독립변수로 종속변수를 예측하는 회귀모형을 만드는 방법

  1. 단순 회귀분석
  • 회귀모델링 분류 : X변수의 수, X변수와 Y변수의 선형성 여부에 따라 구분

  • 단순 회귀분석 예시 : 회귀선으로부터 각 관측치의 오차를 최소로 하는 선을 찾는 것이 핵심
    -> Y = X로부터 설명되는 부분 + 그렇지 않은 부분

  • 최소 제곱법
    : 회귀모형의 모수를 추정하는 방법 중 하나. 회귀모형의 모수를 회귀계수라 함.
    -> 최소제곱법을 통해 구한 추정량을 최소제곱추정량(LSE)라고 하며, 최소제곱법을 통해 회귀모형의 모수를 추정하는 것을 OLS(Ordinary Least Square)라고 함
    -> 회귀모형의 오차에 대한 기본 가정
    1) 정규성 가정 : 오차항은 평균이 0인 정규분포를 따름
    2) 등분산성 가정 : 오차항의 분산은 모든 관측값에 상관없이 일정함
    3) 독립성 가정 : 모든 오차항은 서로 독립임

  • 분산분석표 : 추정된 회귀식에 대한 유의성 여부는 분산분석을 통해서 판단가능
    -> SST(총제곱합) = SSE(잔차제곱합) + SSR(회귀제곱합)

  • 평균제곱(mean square) : 제곱합을 각각의 자유도로 나눈 값

  • 평균제곱오차(mean square error) : SSE/(n-2)

  • 회귀평균제곱(regression mean square) : SSR/1

  • 결정 계수(Coefficient of determination - R**2)
    : 추정된 회귀식이 얼마나 전체 데이터에 대해서 적합한지(설명력이 있는지)를 수치로 제공하는 값
    -> 0과 1 사이의 값으로, 1에 가까울수록 추정된 모형의 설명력이 높은 것. 0이라는 것은 추정된 모형이 설명력이 전혀 없다고 할 수 있음.

  • 수정 결정 계수(Adjust R**2)]

    	-> R**2는 유의하지 않은 변수가 추가되어도 항상 증가됨(다중회귀)
    	-> Adjust R**2는 특정계수를 곱해 줌으로써 R**2가 항상 증가하지 않도록 함 
    	-> 보통 모형 간의 성능을 비교할 때 사용함
  • 잔차 분석
    1) 선형성이 벗어나는 경우 : 종속변수와 독립변수가 선형관계가 아님
    2) 등분산성이 벗어난 경우 : 일반적인 회귀모형 사용 불가능, 등분산성 가정 위배
    3) 독립성에 벗어나는 경우 : 시계열 데이터 또는 관측순서에 영향을 받는 데이터에서는 독립성을 담보할 수 없음(Durbin-Watson test 실행)
    4) 정규성을 벗어나는 경우 : Normal Q-Q plot으로도 확인. 잔차가 -2 ~ +2 사이에 분포해야 함. 벗어나는 자료가 많으면 독립성 가정 위배.

  1. 다중 회귀분석
  • 다중 회귀분석(multiple regression analysis)
    : 2개 이상의 독립변수로 종속변수를 예측하는 회귀모형을 만드는 방법

  • 로지스틱 회귀분석(Logistic regression analysis)
    : 반응 변수가 범주형(이진수)인 경우 사용하는 모형

  • 다항 회귀분석(polynomial regression)
    : 독립변수가 k개이고 반응변수와 독립변수가 1차함수 이상인 회귀분석

  • 변수선택법
    - 전진선택법(forward selection) : 독립변수를 1개부터 시작하여 가장 유의한 변수들부터 하나씩 추가하면서 모형의 유의성을 판단하는 방법
    - 후진제거법(backward selection) : 모든 독립변수를 넣고 모형을 생성한 후, 하나씩 제거하면서 판단하는 방법
    - 단계적 방법(stepwise selection) : 위의 두 가지 방법을 모두 사용하여 변수를 넣고 빼면서 판단하는 방법

  • 더미변수(dummy variable) : 값이 '0' 또는 '1'로 이루어진 변수
    : 지금까지 회귀분석에서는 연속형 변수를 사용하는 예를 들었지만, 범주형 변수를 사용하기 위해서는 더미변수가 필요함. 범주형 변수를 0과 1의 조합으로 표현할 수 있도록 더미변수를 생성함.

  • 다중공선성(Multicollinearity)
    : 상관관계가 높은 독립변수들이 동시에 사용될 때 문제가 발생.
    -> 해결방안 : 다중공선성이 존재하지만 유의한 변수인 경우, 목적에 따라서 사용할 수 있음. 변수 제거. 주성분분석으로 변수를 재조합.

  1. 분산분석
  • 분산분석(analysis of variance) : 셋 이상의 모집단의 평균 차이를 검정

  • t-test : 두 개의 모집단의 평균 차이를 검정

  • 실험계획법(experimental design) : 모집단의 특성에 대하여 추론하기 위해 특별한 목적성을 가지고 데이터를 수집하기 위한 실험설계

  • 반응변수 : 관심의 대상이 되는 변수

  • 요인/인자(Factor) : 실험 환경 또는 조건을 구분하는 변수로 실험에 영향을 주는 변수

  • 인자수준 : 인자가 취하는 개별 값

  • 분산분석 사용이유 : 모집단의 평균들을 비교하기 위해 특성값의 분산 또는 변동을 분석하는 방법. 실험을 통해 얻은 편차의 제곱합을 통해 평균의 차이를 검정 가능.

  • 분산분석의 기본 가정
    1) 각 모집단은 정규분포를 따른다
    2) 각 모집단은 동일한 분산을 갖는다
    3) 각 표본은 독립적으로 추출되었다

  • 분산분석의 가설 : H0(각 집단의 평균은 동일하다) vs H1(각 집단의 평균에 차이가 있다)

  • 실험의 가정
    1) 반복의 원리 : 실험을 반복해서 실행해야 함
    2) 랜덤화의 원리 : 각 실험의 순서를 무작위로 해야 함
    3) 블록화의 원리 : 제어해야 할 변수가 있다면 인자에 영향을 받지 않도록 조건을 묶어서 실험해야 함

  • 분산분석 종류
    1) 일원 분산분석 : 한 가지 요인을 기준으로 집단간의 차이를 조사하는 것
    2) 이원 분산분석 : 두 가지 요인을 기준으로 집단간의 차이를 조사하는 것
    3) 다원 분산분석 : 세 가지 이상의 요인을 기준으로 집단간의 차이를 조사하는 것

  • One-way ANOVA : 한 개의 반응변수와 한 개의 독립인자
    -> 반응변수 : 연속형 변수만 가능
    -> 독립인자(변수) : 이산형 또는 범주형 변수만 가능

  • 상호작용(Interaction effect) : 한 독립변수의 main effect가 다른 독립변수의 level에 따라서 원래의 선형관계를 비선형관계로 변하는 경우

  1. 시계열분석
  • 시계열분석(time series analysis)
    : 시계열(시간의 흐름에 따라 기록된 것) 자료(data)를 분석하고 여러 변수들간의 인과관계를 분석하는 방법

  • 시계열데이터
    : 시간을 기준으로 관측된 데이터로, 보통 일->주->월->분기->년 또는 Hour 등 시간의 경과에 따라서 관측한 데이터
    -> 시계열데이터는 연속 시계열과 이산 시계열 데이터로 구분

  • 연속 시계열 : 자료가 연속적으로 생성. 대부분의 데이터 형태가 연속형이나 이산형 정의하여 분석

  • 이산형 시계열 : 일정 시차(간격)를 두고 관측되는 형태의 데이터. 대부분 이산형 데이터를 분석

  • 시계열분석의 목적
    1) 예측 : 금융시장 예측, 수요 예측 등 미래의 특정 시점에 대한 관심의 대상(반응변수)을 예측
    2) 시계열 특성 파악 : 경향(Trend), 주기, 계절성, 변동성(패턴) 등 관측치의 시계열 특성 파악

  • 전통적인 시계열 분석방법
    1) 이동 평균 모형(moving average) : 최근 데이터의 평균을 예측치로 사용하는 방법
    2) 자기 상관 모형(Autocorrelation) : 변수의 과거 값의 선형 조합을 이용하여 예측하는 방법
    3) ARIMA(Autoregressive Integrated Moving Average) : 관측값과 오차를 사용해서 모형을 만들어서 미래를 예측하는 방법
    4) 지수평활법 : 현재에 가까운 시점에 가장 많은 가중치를 주고, 멀어질수록 낮은 가중치를 주어서 미래를 예측하는 방법

  • 시계열 요소
    1) 경향/추세(trend) : 시계열 데이터가 장기적으로 증가(감소)할 때, 추세가 존재함
    2) 계절성(seasonality) : 특정기간(1년마다) 어떤 특정한 때나 1주일마다 특정 요일에 나타나는 것 같은 계절성 요인이 시계열에 영향을 줄 때 계절성이라고 함
    3) 주기성(cycle) : 일정한 주기(진폭)마다 유사한 변동이 반복되는 현상, 보통 경기 순환(business cycle)과 관련이 있으며 지속기간은 2년임
    4) 불규칙요인(Irregular movements) : 예측하거나 제어할 수 없는 요소

<데이터 분석하기>
1) 데이터 수집 : 데이터 유형 정의 - 소스 데이터 수집 - 데이터 처리 및 가공 - 분석 데이터 가공
-> 산출물: 데이터 정의서, 추출 쿼리
2) 데이터 분석 설계 : 분석 계획 수립 - 데이터 탐색(EDA) - 데이터 특성 발굴
-> 산출물: 분석 수행 계획서, EDA 결과서
3) 분석 모델 개발 : 변수 및 모델 선정 - 모델링 - 모델 테스트 및 검증 - 모델 선정 및 최적화
-> 산출물: 모델링 코드, 분석 결과표(비교)
4) 분석 모델 적용 : 코드 튜닝 - 모델 스코어링 - 모델링 결과 정리 - 산출물 및 결과 레포팅
-> 산출물: 분석 모델링 결과서, 종료 보고서

  1. 머신러닝
  • 머신러닝(Machine Learning) : 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야. 컴퓨터가 학습모형을 기반으로 주어진 데이터를 통해 스스로 학습하는 것.

  • 머신러닝은 Task, Experience, Performance의 세 가지 요소를 가지고 있음

  • Task를 달성하기 위해 경험을 통해 성능을 개선시킴
    -> 1) 분석하고자 하는 목표(T)를 정의,
    2) Experience를 정의하기 위한 데이터를 수집,
    3) Performance를 향상시키기 위한 Measure를 정의함

  • Supervised Learning : Label이 있는 데이터에 대해서 분석하는 방법으로, 과거의 데이터로 미래를 예측하는 방법

  • Classification은 Y의 값이 Category일 때, Regresion은 Y의 값이 연속된 값일 경우 사용함

  • Unsupervised Learning : Label이 없는 데이터에 대해서 분석하는 방법으로, 데이터 나누기나 속성별로 분류할 때 사용

  • Decision Tree : 설명변수(X) 간의 관계나 척도에 따라 목표변수(Y)를 예측하거나 분류하는 문제에 활용되는 나무 구조의 모델
    -> 장점: 결과 해석이 쉽고 빠름, 선형/비선형에 적용 가능
    -> 단점: 과도적합의 문제 조심, 분기점에서 오차 발생확률이 올라감

  • 앙상블 모형
    1) Bagging : boostrap aggregating의 약어로, 데이터를 가방(bag)에 쓸어 담아 복원 추출하여 여러 개의 표본을 만들어 이를 기반으로 각각의 모델을 개발한 후에 결과를 하나로 합쳐 하나의 모델을 만들어 내는 것
    2) Boosting : Boosting도 Bagging과 동일하게 복원 랜덤 샘플링을 하지만, 가중치를 부여한다는 차이점이 있음.
    -> Bagging은 병렬로 학습하는 반면, Boosting은 순차적으로 학습시킴. 학습이 끝나면 나온 결과에 따라 가중치가 재분배.

  • 딥러닝(Deep Learning) : 인공신경망의 발전한 형태
    -> 인간의 뇌처럼 수많은 노드를 연결하여 이들의 노드값을 훈련시켜 데이터를 학습시킴

  • Convolutional Neural Network (CNN)
    : 기존의 방법은 데이터->지식의 단계로 학습. but 지금은 데이터->특징(feauture)->지식의 단계로 학습을 시킴 (예를 들어 사물인식에 있어서 특징적인 선이나 색을 먼저 추출하여 판단)

  • Recurrent Neural Network
    : 매순간마다 인공신경망 구조를 쌓아올린 형태
    -> 시계열 데이터 분석에 사용함.

<제로베이스 데이터 취업 스쿨>

0개의 댓글