[기초 통계학] 데이터와 기초통계량

·2023년 4월 25일
1

[기초 통계학]

목록 보기
2/6

통계학

산술적인 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야

  • 기술 통계학
    데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론
  • 추론 통계학
    모집단으로 부터 추출한 표본-데이터를 분석하녀 모집단의 여러가지 특성을 추측하는 방법론

추가 자료 : 데이터분석과 통계, 머신러닝의 차이는?

데이터와 그래프

변수(Variable)
수학에서 변수란, 어떤 정해지지 않은 임의의 값을 표현하기 위해 사용된 '기호' 이다. 보통 쉽게 설명하기 위해서 '변하는 숫자' 라는 표현을 자주 쓰곤 한다.
통계학에서는 조사 목적에 따라 관측된 자료값을 변수라고 함, 해당 변수에 대하여 관측된 값들이 바로 자료(DATA)가 됨

질적 자료
관측된 데이터가 성별, 주소지, 업종 등과 같이 몇 개의 범주로 구분하여 표현할 수 있는 데이터를 의미함
데이터 입력은 1은 남자, 2는 여자로 표현 가능하나 여기서 숫자의 의미는 없음

양적 자료
관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고 있음
숫자를 표현할 때는 이산형 데이터와 연속형 데이터로 구분할 수 있음


이미지 출처 : IT 파스칼

EDA

데이터를 분석하는 과정 중 가장 많이 사용하는 분석 방법을 Exploratory Data Analysis 라고함
EDA는 데이터를 탐색하는 분석 방법으로 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법임

목적

  • 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
  • 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정
  • 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
  • 분석 데이터가 적절한갸 평가, 추가 수집, 이상치 발견등에 활용

데이터 시각화

데이터 시각화는 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을 말한다. (데이터를 스토리텔링)

시간 시각화 : 막대 그래프, 누적 막대 그래프, 점그래프
분포 시각화 : 파이 차트, 도넛 아트, 트리맵, 누적 연속 그래프
관계 시각화 : 스캐터 플롯, 버플 차트, 히스토그램
비교 시각화 : 히트맵, 스타차트, 평행 좌표계, 다차원 턱도법
공간 시각화 : 지도 맵핑


이미지 출처 : What is Data Visualization?

데이터의 기초 통계량

기초 통계량

  • 통계량은 표본으로 산출한 값으로, 기술통계량이라고도 표현함
  • 통계량을 통해 데이터가 갖는 특성을 이해할 수 있음

중심 경향치

  • 표본을 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심 경향치라고 함
  • 대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있음

중앙값

평균과 같이 자주 사용하는 값으로 표본으로 부터 관측치를 크기순으로 나열 했을 때, 가운데 위치하는 값을 의미함
관측치가 홀수 일 경우 중앙에 취하는 값, 짝수일 경우 가운데 두개의 값을 상술 평균한 값
이상치가 포함된 데이터에 대해서 사용

최빈값

관측치 중에서 가장 많이 관측되는 값
주로 옷 사이즈와 같은 명목형 데이터에 사용

산포도

데이터가 어떻게 흩어져 있는지를 확이하기 위해서 사용
데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표춘편차, 변동 계수 등이 있음

범위

데이터의 최댓값과 최소값의 차이를 의미함

사분위수

전체 데이터를 낮은 순에서 높은 순으로 정렬한 후 4분위 했을 때, 각 등위에 해당하는 값을 의미.(25%, 50%, 75%, 100%)
첫 번째를 1사분위수(Q1), 두 번째를 제2사분위수(Q2), 세 번째를 제3사분위수(Q3) 이라고 함

보통 1/4 분위수 (first quartile or 25% quantile)와 3/4 분위수 (third quartile or 75% quantile)를 가장 많이 사용

평균과 비슷한 개념을 가지고 있는 중앙값은 사분위수 개념으로는 2/4분위수에 해당하는 값이다.

사분위수 범위 : IQR = Q3 - Q1

이미지 참고 : IQR 방식을 이용한 이상치 데이터(Outlier) 제거
참고 : 범위, 사분위수, 신뢰구간

백분위수

전체 데이터를 낮은 순에서 높은 순으로 정렬한 후 주어진 비율에 의해 등분한 값을 말하며, 제 p백분위수는 p%에 위치한 값을 말함

자료의 수가 n개일때, 제 100 x p 백분위수는 그 값보다 작거나 같은 관측값의 개수가 np개 이상이고, 그 값보다 크거나 같은 관측값이 n(1-p)개 이상인 값이다

  • 1 3 5 7 9 의 30 백분위 수 : 3

    5 x 0.3 = 1.5 : 작거나 같은 관측값의 개수
    5 x 0.7 = 3.5 : 크거나 같은 관측값 개수

  • 1 3 5 7 9 의 40 백분위 수 : 3 과 5 사이 중앙값

    5 x 0.4 = 2 : 작거나 같은 관측값의 개수
    5 x 0.6 = 3 : 크거나 같은 관측값 개수

제 100 x p 백분위수 구하는 법
1. 관측값을 작은 순서로 배열한다.
2. 관측값의 개수(n)에 p를 곱한다.
- 만약 n x p 가 정수이면, n x p번째로 작은 관측값과 n x p + 1번째로 작은 관측값의 평균을 제 100 x p 백분위수로 한다.
- 만약 n x p 가 정수가 아니면, n x p 에서 정수 부분ㅇ 1을 더한 값 m 을 구한 후, m 번째 작은 관측값을 제 n x p 백분위수로 한다.

참고 : 기초통계-백분위수와-사분위수

분산

데이터 분포가 얼마나 흩어져 있는지를 알 수 있는 측도
편차의 제곱합의 평균

표준 편차

분산의 제곱근으로 정의

변동계수(Coefficient of Variation: CV)

평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용
변동계수는 표준 편차를 평균으로 나누어서 산출하여 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교하여 실제 분석에서 자주 사용

이미지 출처 : R, Python 분석과 프로그래밍의 친구 (by R Friend)

표준 점수

어떤 특정한 자료값이 평균으로부터 표준편차의 몇 배만큼 떨어져 있는가를 나타내는 측도

참고 : 추측 통계학(평균, 분산, 표준편차, 표준점수, 백분위수)|작성자 센서로세계로미래로

분포의 모양

정규분포

평균과 분산에 따라 모양이 달라짐
분산이 크면 분포가 넓어지고 분산이 작으면 분포가 좁아짐

왜도 (Skew)

자료의 분포가 얼마나 비대칭적인지 표현하는 지표
왜도가 0이면 좌우가 대칭이고, 0에서 클수록 우측 꼬리가 길고 작을수록 좌측 꼬리가 길다

첨도(Kurtosis)

확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
첨도값(K)가 3에 가까우면 산포도는 정규분포에 가까움
3 > K : 산포는 정규분포 보다 꼬리가 얇은 분포
3 < K : 정규분포 보다 꼬리가 두꺼운 분포

profile
개발하고싶은사람

0개의 댓글