KDT 데이터 분석가 과정 1주차 (통계)

휸하엘레나킴·2021년 8월 17일
0
통계와 엑셀 (21.07.19 - 21.07.21)

통계학

통계학이란?

모집단의 특성을 파악하기 위해 모집단으로부터 일부의 자료(표본)을 수집, 정리, 요약, 분석하여 표본의 특성을 파악. 이를 이용하여 모집단의 특성에 대해 추론하는 원리와 방법.
추측에 의한 의사결정이 아닌, 자료에 근거한 합리적인 의사결정을 내릴 수 있다.

통계학의 분류

  • 기술 통계학 : 요약 통계량, 그래프 표 등을 이용하여 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법.
    시각적 표현 - 표, 그래프 / 수치요약 - 통계량
  • 추론 통계학 : 데이터가 모집단으로부터 나왔다는 가정하에 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법.
    추정 - 점 추정, 구간 추정 / 가절 검정
  • 기술 통계(탐색적 분석, EDA) > 추론 통계

모집단과 표본

  • 모집단 : 관심의 대상이 되는 모든 관측값이나 측정값의 전체 집합.
    모수(parameter) - 모집단의 특성을 나타내는 수
  • 표본(sample) : 모집단 전체의 특성을 파악하기 위하여 모집단으로부터 추출된 일부분.
    통계량 - 표본을 특징을 나타내는 함수

기술 통계량

수집한 자료를 정리, 표현, 요약, 해석할 수 있는 기본적인 통계량.
둘 이상을 비교할 때, 대표적인 통계량으로 파악하는 것이 더욱 효과적이다.

  • 범주형(질적)자료 : 숫자로 표현할 수 없는 자료를 집단화하여 나타낸 자료.
    - 명목형 자료 : 분류만 하여 값을 부여. 종교, 혈액형, 성별
    - 순서형 자료 : 순위나 순서의 개념을 갖는 자료. 평점, 학력
  • 측정형(양적)자료 : 측정단위를 이용한 측정값이 부여되어 숫자로 표현, 숫자의 크기가 의미를 갖는 자료.
    - 이산형 자료 : 양의 정수, 셀 수 있는 자료. 매장 방문 횟수, 가구의 가족구성원 수
    - 연속형 자료 : 실수 키, 몸무게, 혈압

위치의 측도

자료들이 어느 위치에 가장 많이 모여 있는가.
전체적으로 어떤 형태로 분포하고 있는가.

  • 평균(mean) : 자료 전체를 합한 값 / 자료 전체 개수
  • 중앙값(median) : 자료를 크기 순서로 나열해 놓았을 때 위치적으로 중앙에 있는 값.
  • 최빈값(mode) : 자료 중에서 발생하는 도수가 가장 많은 값. 쉽게 구할 수 있지만 대표값으로는 부적절.
  • 백분위수(percentile) : 크기 순으로 배열한 자료를 100등분 하는 수.
  • 사분위수(quartile) : 크기 순으로 배열한 자료를 4등분 하는 수.

산포도

자료들이 퍼져 있는 정도를 나타내는 산포도(measure of variability)
같은 평균을 갖는 자료의 비교는 산포도 비교가 용이하다.
그러나 서로 평균이 다르면 어렵다.

  • 분산 : 자료의 변동(variation)의 평균. 변동이란 관찰값과 평균과의 차의 제곱.
    분산은 관찰값들이 평균으로부터 떨어져 있는 정도를 의미.
  • 표준편차 : 자료가 평균을 중심으로 얼마나 퍼져있는지를 의미.
    표준편차가 0에 가까우면 자료 값들이 평균 근처에 집중되어 있음을 의미.
    표준편차가 클수록 자료 값들이 널리 퍼져 있음을 의미.

자료의 시각적 표현

  • 도수분포표 : 실제 관찰값이나 규칙에 의해 나눈 구간, 도수 및 상대도수를 표현한 표.
  • 히스토그램 : 관찰값들을 동일한 구간에 대한 도수분포표로 만든 경우, 각 구간의 상대 도수를 구간의 길이로 나눈 값을 기둥의 높이로 나타냄.
    상대 도수를 구간의 길이로 나눈 값을 밀도(density). 각 기둥면적의 합은 1.
  • 박스플롯 : 최소갑, 제1사분위수, 중앙값, 제3분위수, 최대값을 통해 만드는 시각화.

확률

확률의 개념

  • 고전적 개념 : 각 단일사상들이 발생할 가능성이 모두 동일하다는 전제.
    그러나, 현실 세계에서 '단일사상이 발생할 가능성이 동일'하다는 전제가 만족되기 어려움.
  • 상대도수적 개념 : 실험 횟수를 충분히 많이 반복한다는 전제.
    그러나, 충분한 '실험 시행 횟수'에 대한 기준이 명확하지 않음.
  • 확률의 공리 : 어떤 정의든 한계가 있으니, 몇 가지 조건을 설정하고 이를 만족하는 경우를 확률이라 하자.
  • 확률실험(random experiment) : 시행하기 전에는 확실히 예측할 수 없는 결과를 유발하는 행위 또는 과정. 주사위를 던져 관찰
  • 표본공간(sample space) : 어떤 확률 실험에서 발생 가능한 모든 단일사상들의 집합. 주사위를 한 번 던지는 실험에서의 표본공간 > S={1, 2, 3, 4, 5, 6}
  • 사상(event) : 하나 또는 둘 이상의 단일사상의 집합.
    • 단일사상 : 더 세부적인 결과로 분해할 수 없는 사상.

사상의 독립 & 조건부 확률

  • 독립관계(independent) : 두 사상 사이에 밀접한 관계가 있어, 한 사상의 발생이 다른 사상의 발생에 영향을 미치지 않는 것.
    • 빨간 공2개, 파란공 2개가 들어있는 주머니에서 공 하나를 뽑고 다시 넣었다가 다시 뽑는 경우. 처음 뽑은 공이 빨강일 사상을 A, 두번째 공이 빨강일 사상을 B라고 하면
      P(B)=12=P(BA)P(B)=\frac{1}{2}=P(B|A)
      공을 다시 넣기 때문에 처음 추출(A)이 영향을 미치지 않음.
    • 상호독립과 상호 배반의 관계 : 오늘 날씨가 맑다. / 오늘 시험을 본다.
  • 다음의 세 조건 중 하나만 만족하면 두 사상은 서로 독립.
  1. P(A|B) = P(A), P(B) > 0
  2. P(B|A) = P(B), P(A) > 0
  3. P(AB) = P(A)P(B)
  • 종속관계(dependent) : 두 사상 사이에 밀접한 관계가 있어 한 사상의 발생이 다른 사상의 발생에 영향을 미치는 것.
  • 조건부 확률
    • 종속 관계의 두 사상 A와 B에서, 첫번째가 일어났다는 전제하에, 사상 B가 발생할 확률. p(B|A)로 표시하며 P(A) > 0 이라면
      P(BA)=P(AB)P(A)P(B|A)=\frac{P(A\cap B)}{P(A)}
  • 확률의 합법칙
    • 임의의 사상 A와 B에 대하여
      P(AB)=P(A)+P(B)P(AB)P(A\cup B)=P(A)+P(B)-P(A\cap B)
      사상 A와 B가 서로 배반 사상이라면
      P(AB)=P(A)+P(B),AB=P(A\cup B)=P(A)+P(B), A\cap B=\varnothing
  • 확률의 곱법칙
    • 두 사상 A와 B의 교집합의 확률은
      P(AB)=P(A)P(BA)P(A\cap B)=P(A)P(B|A) 또는 P(AB)=P(B)P(AB)P(A\cap B)=P(B)P(A|B)
    • 두 사상 A와 B가 독립이라면 교집합의 확률은
      P(AB)=P(A)P(B)P(A\cap B)=P(A)P(B)

확률변수

확률변수

  • 실험의 결과인 사상 \rightarrow 주로 말이나 문자로 표현 동전던지기의 앞/뒷면, 가위바위보의 승/무/패 등
    이러한 실험결과를 숫자로 표현하는 것이 분석하는데 더욱 효율적.
    동전 한 개를 던지는 실험의 표본공간 S={H,T}
  • 확률변수 : 표본공간 내에 있는 각 원소를 하나의 실수값에 대응시기는 함수. (이산형과 연속형으로 분류)

확률변수의 분류

  • 이산형 확률변수
    • 확률변수 X가 가질 수 있는 값의 수가 countable(셀 수 있는 0을 포함한 양의 정수).
    • 이산형 표본공간(표본공간이 셀 수 있는 원소로 이루어졌을 때)에 대응하는 함수.
  • 연속형 확률변수
    • 키, 몸무게 등 관측값이 소수점 이하의 값으로 표현 가능한 실수.
    • 연속형 표본 공간(표본공간이 실선의 어떤 구간내의 모든 수를 포함)에 대응하는 함수.

추정

표본 분포

  • 표본 : 모집단 추론을 목적으로 표본 추출. 모집단의 특성을 대표하기 위해 무작위 추출.
  • 표본\rightarrow표본 통계량 : 모집단에 대한 추론을 위해 표본에서 표본 통계량을 계산\rightarrow추출된 표본이 변함에 따라 같이 변한다. 표본 통계량도 확률변수!
  • 표본\rightarrow표본 통계량\rightarrow표본분포
  • 확률표본 : 무작위 추출을 통해 얻어진 모집단을 대표하는 표본.(표본 하나하나는 독립적으로 동일한 확률분포로부터 추출되어야 함.)

추정과 추정량

  • 추정 : 통계량을 이용하여 모수를 추론하는 과정.
  • 추정량 : 추정에서 사용하는 통계량.
  • 추정값 : 추정량이 관측되어 얻어진 값.
    월평균 소득을 알기 위해 모집단으로부터 표본을 추출하여 평균(200만원)을 추정한 경우 >
    추정량 : 표본평균X\overline{X}, 추정값 : 200만원
  • 추정오차 : 추정단계에서 발생하는 오차. 추정량에 관한 표본분포의 표준편차인 표준오차를 통해 얻어진다.

점추정

점추정량(point estimator) : 하나의 값으로 모수를 추정하는 통계량.
점추정값(point estimate) : 점 추정량이 관측되어 얻어진 값.

좋은 추정량의 기준

  • 불편성(unbiasedness) : 추정량 θ^\hat{\theta}의 기댓값이 모수 θ\theta가 될 때 불편성을 만족.
    • 불편 추정량(unbiased estimator) : E(θ^)=θE(\hat{\theta})=\theta 일 때, θ^\hat{\theta}θ\theta에 대한 불편 추정량이라 한다.
  • 최소분산 : 좋은 추정량은 표본분포의 변동, 즉 분산이 가능한 작아야한다.
  • 일치성 : 표본크기를 무한히 증가시켰을 때, 추정량의 분포가 모수에 한없이 집결되는 것.

점추정 방법

  • 적률추정법
    • 적률(moments) : 확률분포를 가지는 확률변수의 거듭제곱r의 기댓값.
    • 표본적률 : 표본크기의 확률표본이 존재할 때 원점에 대한 r차 표본 적률.
    • 적률추정법 : 표본적률이 모집단의 적률에 대응하는 좋은 추정값을 제공한다는 것에 기초아여 표본적률을 추정량으로 선택하는 방법.
  • 최대우도방법
    • 우도함수(likelihood function) : 표본 관측값을 통해 얻어지는 결합밀도 함수.
      • 결합밀도 함수 : 각 관측값의 확률밀도함수들의 곱.
    • 최대 우도방법 : 우도함수 L(θ)L(\theta)를 최대화시키는 θ\theta값을 모수θ\theta의 추정값으로 선택하는 방법. 적률방법보다 더 정교한 추정량을 제공한다.

점추정의 한계

점추정량이 불편성, 효율성, 일치성을 만족하더라도 분산이 존재하므로 모수와 완전히 일치한다고 할 수 없다.


구간추정

  • 신뢰구간(confidence interval)
    하나의 점추정값이 아닌 일정한 신뢰수준하에 추정된 모수의 기대구간.
  • 모비율의 구간추정
    모비율 p의 추정량인 표본비율 p^\hat{p}X\overline{X}와 마찬가지로 표본크기가 클 때 중심극한정리에 의해 정규분포를 따른다.

가설검정

모집단(모수)에 대한 가설을 설정하고 표본을 관찰하여 가설의 채택 또는 기각의 결정을 내리는 것.
통계적 가설 : 단일 또는 여러 모집단에 대한 주장

  • 가설의 종류
    • 귀무가설(H0H_0) : 검정의 대상. 기존의 알려진 사실을 간단하고 구체적으로 표현한 가설.
    • 대립가설(H1H_1) : 실험자가 사실임을 입증하고자 하는 가설로서 귀무가설로 지정되지 않은 모든 경우를 포함.
  • 검정통계량 : 가설을 검정하기 위해 사용되는 통계량. 검정통계량의 분포는 항상 H0H_0하에서 정의된 모수값에 의해 결정된다.

제1종 오류와 제2종 오류

상태 \ 결정H0H_0채택(임신진단)H0H_0기각(임신진단x)
H0H_0가 참일 때(임신o)옳은 결정 1-α\alpha(신뢰도)제1종 오류 α\alpha(유의수준)
H0H_0가 거짓일 때(임신x)제2종 오류 β\beta옳은 결정 1-β\beta(검정력)

제1종 오류(type 1 error) : 귀무가설이 참임에도 불구하고 귀무가설을 기각하는 오류.
제2종 오류(type 2 error) : 귀무가설이 거짓임에도 불구하고 귀무가설을 채택하는 오류.

  • 임계값 : 주어진 유의수준α\alpha하에서 귀무가설H0H_0의 채택 또는 기각 여부를 판정하기 위한 기준이 되는 값.
    임계값은 유의수준 α\alpha, 표본크기 nn, 검정통계량의 분포에 의해 결정된다.
  • 채택역과 기각역
    • 채택역 : 귀무가설 H0H_0를 받아들이는 영역.
    • 기각역 : 귀무가서 H0H_0를 받아들이지 않는 영역.

가설검정의 절차

  1. 가설설정
    분석하고자 하는 목적에 따라 귀무가설 H0H_0와 대립가설 H1H_1을 설정한다.
  2. 유의수준 α\alpha와 표본크기 nn결정
  3. 검정통계량과 분포 결정
    H0H_0하에서 적절한 검정통계량T(X1,...,Xn)T(X_1,...,X_n)H0H_0하에서의 TT의 분포를 결정한다.
  4. 임계값 및 기각역 결정
    주어진 α\alpha와 표본크기 nn에 따라 임계값 cc를 결정하고 H1H_1의 형태에 따라 기각역 CC를 결정한다.
  5. 검정통계량 계산
    확률표본의 관측값을 이용하여 검정통계량의 값 tt를 계산한다.
  6. 의사결정
    tCt\in C이면 H0H_0를 기각하고 tCt\notin C이면 H0H_0를 채택한다.

분석

분산분석

서로 다른 변수(연속형)나 표본이 있을 때, 그것들을 비교하는 방법.

상관분석

두 변수 간의 상관관계 정도를 나타내는 수치.
아이스크림 가게의 매출과 기온의 상관성은 어느 정도인가?
범위는 (-1, 1).

  • -1에 가까울수록 음의 상관관계가 강하다.
  • 1에 가까울수록 양의 상관관계가 강하다.
  • 0에 가까운 값이면 두 변수간에는 상관관계가 없다.
  • 공분산 : 공분산은 두 기준(변수)에 의한 '관계'.

T-test

두 집단(표본)간에 서로 평균 차이가 있는가를 통계적으로 검정하는 방법.
대로면의 아이스크림 가게와 주택가의 아이스크림 가게는 매출 차이가 통계적으로 유의한가?
홈페이지의 A위치에 배너를 놓았을 때와 B위치에 배너를 놓았으르 때 매출액 차이가 통계적으로 유의한가?

  • 귀무가설H0H_0 : 두 집단의 평균이 서로 같다. Vs 대립가설H1H_1 : 두 집단의 평균이 다르다.
  • 검정의 순서
    1. t 통계량을 사용하여 검정하기 전, 먼저 두 집단의 분산이 동일한지 검정.(F-test)
    2. 두 집단의 분산이 같다면 (등분산성 OK, F-test 기각 X) > Student's t-test.
      두 집단의 분산이 다르다면 (등분산성 X, F-test 기각) > Welch's t-test.
  • t-test를 사용하기 위한 가정 : 정규성

Paired t-test

한 집단(표본)을 처리 전후의 평에 차이가 있는가를 통계적으로 검정하는 방법.
임상 투약 전/후 환자의 상태의 차이가 통계적으로 유의한가?
캠페인 광고 전후의 고객의 구매금액 차이가 통계적으로 유의한가?

  • 귀무가설H0H_0 : 처리 전후의 평균이 서로 같다. Vs 대립가설H1H_1 : 두 집단의 평균이 다르다.

ANOVA(Analysis Of Variance)

서로 다른 집단이 세 개 이상일 때, 집단 간 평균의 차이를 검정하는 방법.
평균에 대한 비교이지만, 분산의 개념을 활용하여 검정하기 때문에 분산분석이라고 불린다.


회기분석

변수(Y(Y & Xi)X_i)간 간계 분석 & 새로운 값 예측.
아버지 키와 자녀들의 키의 관계
회기분석 모형을 통해 새로운 관측치의 예측값을 구할 수 있다.
추정된 회귀선을 통해 실제 값이 없는 케이스도 예측값을 구할 수 있음.

회기분석

  • 우리가 알고자 하는 변수를 반응변수 혹은 종속변수(YY)라고 한다.
  • 이미 알고 있는 변수를 설명변수 혹은 독립변수(XX)라고 한다.

회기분석의 과정

  1. 문제에 대한 진술 : 주제 선정
    매출액에 영향을 주는 요인은 무엇이 있을까?
  2. 잠재적으로 적절한 변수들의 선택 : 반응변수를 설명할 설명변수들 선택
    매장 방문 빈도, 방문 시 구매금액, 평균 구매 주기, 구매 카테고리 수 등
  3. 데이터 수집 : 양적 or 질적변수 데이터 수집
    반응변수가 질적변수(이산형)일 경우 > 로지스틱 회기 사용
    설명변수가 질적변수(이산형)일 경우 > 더미변수 사용
  4. 모형 설정 : 단순회기분석(설명변수가 하나) Vs 다중회기분석(설명변수가 여러개)
  5. 모형 적합
  6. 모형 평가 및 비판 : 추정된 회기 모형의 기본 가정의 타당성 검증, 적합도 검정.
  7. 실행활 적용 : 각 변수 별 회귀 계수의 영향력 해석.

다중회귀 분석

단순회귀 모형의 확장.
여러개의 설명변수로 구성된 회귀모형.

  • 더미변수 : 수치로 나타내기 힘든 질적변수를 편의상 숫자로 나타낸 변수.
    교육수준(초, 중, 고, 대), 성별(남, 여) 등의 범주형(이산형) 데이터
    숫자 1과 0으로 이루어짐.
    변수의 개수 = 해당 변수를 구성하는범주의 수 -1

범주형 자료분석

  • 범주형 자료 : 몇 개의 범주로 나누어진 자료
    상/중/하, 남자/여자 ...
  • 다항 실험 : 각 시행에서 가능한 결과가 셋 이상이 되는 실험
    하나의 주사위를 $n$번 던지는 실험
  • 적합도 검정 : 각 범주별 발생 확률에 대한 가설검정.
    주어진 실험 결과를 바탕으로 주사위가 공정한가를 검정
  • 독립성 검정 : 두가지 범주형 변수들이 서로 영향을 미치는지 검정.
    기초 통계학 학점 (A,B,C,D)와 미적분학 수강여부(Y,N)가 서로 영향을 미치는지 검정
  • 동질설 검정 : 서로 다른 모집단의 범주형 변수들이 서로 같은 비율을 가지는지 검정.
    각 도 별로 경제수준(상위/중산층/하위)의 비율이 같은지 검정
profile
문과생의 데이터 분석 공부

0개의 댓글