데이터 분석 통계

dkdiek·2024년 10월 31일

데이터분석

목록 보기
4/14

표본 조사

전수 조사가 사실상 불가해 무작위로 일부 상품을 골라 조사하는 것을 표본 조사 방식이라고 한다.
아무리 정교하게 표본 조사를 해도 전수 조사와 오차가 발생할 수 밖에 없다.
통계학에서 표본 조사로 얻은 데이터에서 허용 오차를 보통 5%로 지정하는데 이는 유의 수준 5% 또는 신뢰 수준 95%라고 정의한다. p값이 0.05(5%) 미만이라면 귀무가설을 기각하고 대립가설을 채택한다.
모집단(전체 대상 데이터), 표본(모집단의 일부를 뽑은 샘플 데이터), 표본의 수를 표집 수라고 하며 n으로 표기한다. 표본의 평균을 표본 평균이라고 하고 엑스바라고한다. 표본의 표준 편차를 표본 표준편차 S로 표기한다.

가설 검정

표본 조사로 데이터를 얻었다면 목적에 따른 가설을 세우고, 가설 입증을 위한 가설 검정을 진행한다.
가설 검정 방법에는 귀무가설과 대립가설이 있다.
귀무가설의 사전적 정의는 두 모수값(parameters)이 서로 차이가 없다고 하는 가설로, 기각될 것을 상정하고 세우는 가설이다.
대립가설은 귀무가설과 반대로 실제로 주장하고자 하는 가설이다.

1종 오류 vs 2종 오류

가설 검정을 위해 귀무가설을 설정했다면 이후에는 정확한 실험을 통하여 귀무가설이 옳은지 대립가설이 옳은지 파악 필요. 그 결과는 완벽하지 않아 잘못된 결론이 날 수 있다. 이러한 잘못된 결론을 1종 오류와 2종 오류라고 한다.
1종 오류 - 귀무가설이 참인데 기각
2종 오류 - 귀무가설이 거짓인데 채택

기술 통계

중심

  • 산술 평균: 총합을 변수 n개로 나눈 값. 이러한 산술 평균은 측정값의 분포가 비슷하거나 좌우 대칭의 종 모양인 정상 분포를 이룰 때 활용. 남성 혹은 여성의 평균 키를 계산하는 것이 이에 속한다.

  • 중앙값: 중앙값은 변수들을 크기순으로 배열했을 때 중앙에 있는 수.

  • 최빈값: 배열 중 가장 많이 등장하는 수.

산포

  • 편차: 편차느 하나의 데이터 값이 평균에서 얼마나 떨어져 있는지 나타내는 값. e.g., 1,2,3,4,5의 평균은 3이고 숫자 1의 편차는 1에서 3을 뺀 -2이다.

  • 분산: 분산은 편차를 이용하여 구하는데 편차는 음과 양의 값을 가질 수 있다. 편차는 음과 양의 값을 가질 수 있어 편차의 합을 양수화하기 위하여 제곱을 사용. 편차를 제곱한 값을 합한 뒤 개수로 나눈 값이다.

  • 표준 편차: 표준 편차는 분산에 제곱근을 씌운 값. 제곱의 합으로 계산한 분산 값이 너무 크기 때문에 실제 값과 근사한 오차 값을 구하기 위해 사용.

시각적 패턴

  • 왜도: 분포의 비대칭성을 나타내는 척도. 데이터가 대칭을 이를수록 왜도 값은 0에 가까워진다. 치우칠수록 양수 또는 음수가 된다.

  • 히스토그램: 자료의 분포를 몇 개 구간으로 나누고, 구간에 속하는 자료인 도수 분포를 파악하기 위해 시각화한 자료. 좌우 대칭등의 유형으로 치우친 정도나 방향에 따른 패턴으로 인사이트를 파악, 데이터 분포 특징 및 확인, 이상값, 그룹 평가 및 비교 등에 활용

  • 박스 플롯: 최솟값, 제1사분위수, 중앙값, 제3사분위수, 최대값 등 5가지 요약 수치를 상자 수염 그림 또는 상자 그림으로 나타낸 것. 히스토그램과 용도는 동일하며, 히스토그램에 비해 집단이 여러 개일 때 한 공간에 나타내기 좋다.

0개의 댓글