통계기본

AI Scientist를 목표로!·2023년 1월 25일
0
post-custom-banner

중심극한정리

  • 교과서적 정의 : 자연 현상이나 사회 현상 중에서 확률밀도함수의 그래프가 어떤 값을 중심으로 대칭적으로 분포하며 중심에서 멀어질 수록 도수가 작아지는 종 모양의 곡선에 가깝게 나타나는 경우

  • 모집단이 「평균이 μ이고 표준편차가 σ인 임의의 분포」을 이룬다고 할 때, 이 모집단으로부터 추출된 표본의 「표본의 크기 n이 충분히 크다」면 표본 평균들이 이루는 분포는 「평균이 μ 이고 표준편차가 σn\frac{σ}{\sqrt n}인 정규분포」에 근접한다.

표폰평균분포란?

  • 모집단에서 표본크기가 n인(예,30개) 표본을 여러번 반복해서(예,200번) 추출했을 때, 각각의 표본 평균들이 이루는 분포

  • 중심극한정리는 표본의 크기가 커질수록 (일반적으로 30 이상), 표본 평균들이 이루는 분포가 「모집단의 평균 μ, 표준편차가 σn\frac{σ}{\sqrt n}인 정규분포」에 가까워 진다는 정리


표본과 표준 오차

  • 모집단

    • 정보를 얻고자 하는 대상의 전체 집합
  • 모수

    • 전체 집단의 모든 데이터를 알지 못하더라도 수학적으로 해당 분포를 기술할 수 있는 특성치를 알 수 있다면, 비슷하게 모집단의 특성을 통계적으로 확인할 수 있다

    • 특성치 = 모수

    • 평균 / 분산 / 표준편차 / 분위수(중위값, 1분위수 등) / 모비율

  • 표본 : 모집단의 부분 집합

    • 표본을 추출하는 것은 현실적으로 모집단 전체를 검사할 수 없기 때문에 표본 추출을 진행

    • 따라서 표본은 모수를 추정하기 위해 얻는 값

    • 만일 표본을 랜덤하게 뽑는다면 추출된 표본은 매번 다른 값들로 구성될 가능성이 높음

    • 즉, 표본은 매번 추출할 때 마다 값이 달라지는 특성을 가짐

    • 추출된 표본들을 통계적으로 기술하기 위해 통계적 특징을 나태나는 표본 통계량을 계산할 수 있음

    • 표본 통계량 = 표본 평균 / 표본 표준편차 / 표본 비율

  • 표준 오차

    • 표본 통계량의 표준 편차

    • 매번 추출될 때 마다 값이 바뀌는 특성 때문에 표본 통계량은 매번 변동(오차)가 발생함

  • 표준 오차와 표준 편차는 다른 값

    • 표준 오차 = 평균의 추정치에 대한 불확실도를 수치화 한 값

    • 표준 편차 = 모집단의 분포가 얼마나 퍼져있는가


귀무가설과 대립가설

연구를 통해 새로운 사실을 발견했다는 사실을 입증할 경우 사용되는 가설이다.

  • 귀무가설 = 새로운 사실이 없다.

  • 대립가설 = 새로운 사실이 있다.

    • 귀무가설이 틀렸다고 판단했을 때, 대안적으로 채택되는 가설

Ex) 하체 운동 여부가 관절염 발생 증가에 영향을 미치는지 연구할 경우

  • 귀무가설 : 하체 운동은 관절염 발생에 영향을 미치지 않는다.

  • 대립가설 : 하체 운동은 관절염 발생에 영향을 미친다.

Ex) 제약회사에서 개발한 신약의 효과를 검정할 경우

  • 귀무가설 : 새로 개발한 신약은 효과가 없다

  • 대립가설 : 새로 개발한 신약은 효과가 있다.

새로운 사실이 있다라는 "대립가설"만 사용하지 않고 "귀무가설"까지 사용하는 것인가??

  1. 참이 아님을 증명하는 것이 참이라고 증명하는 것 보다 쉽기 때문

  2. 귀무가설 1개를 검정하는 것이 대립가설 하나하나 모두 검증하는 것 보다 쉽기 때문

  3. 모수에 대해서 알 수 없으며, 연구에는 주관이 개입되면 안되기 때문

주의점

  • 귀무가설을 기각했다고 해서 대립가설을 증명한 것이 아니라는 것

  • 1개의 귀무가설에 대한 대립가설은 여러개가 나올 수 있기 때문에 1개의 귀무가설을 기각했다고 해서 여러개의 대립가설이 모두 맞다는 것은 아니라는 뜻

귀무가설의 유의성 검정

  • 모집단에서 표본을 추출하고 표본으로 부터 얻은 정보를 바탕으로 귀무가설이 참인지, 거짓인지 판단

  • 표본을 추출할 때마다 값이 매번 통계치가 달라지기 때문에 항상 오류의 가능성이 존재

  • 귀무가설이 참인지 거짓인지 판단하기 위해 귀무가설이 참이라고 가정했을 때, 표본으로 부터 얻어지는 통계치가 관측될 확률을 계산

  • 여기서 관측될 확률값 = p값

  • p값이 낮다는 것은 귀무가설이 참이라는 가정하에서 표본을 추출했을 때, 표본 평균이 관측될 확률이 낮다는 것

  • 즉, p값이 매우 낮으면 표본 통계량은 우연히 나타나기 어려운 케이스이기 때문에, 귀무가설을 채택하지 않고(=기각하고) 대립가설을 채택

profile
딥러닝 지식의 백지에서 깜지까지
post-custom-banner

0개의 댓글