데이터 취업 스쿨 스터디 노트 -(41) 기초통계

테리·2024년 7월 31일
0

데이터의 이해

변수

수학: 정해지지 않은 임의의 값
통계학: 조사 목적에 따라 관측된 자료값

질적 자료

성별, 주소지(시/군/구), 업종 등과 같이 몇 개의 범주로 구분하여 표현할 수 있는 데이터. 1은 남자, 2는 여자로 표현 가능하나 여기서 숫자의 의미는 없음.

  • 명목형 변수: 성별, 혈액형
  • 순서형 변수: 교육수준, 건강상태 처럼 순서에 의미가 있음.
    ex) 초졸:1, 중졸:2, 고졸:3

양적 자료

숫자의 크기가 의미를 갖고 있음.

  • 이산형 변수: 시험 성적(1~100)
  • 연속형 변수: 사람 키처럼 데이터가 쭉 이어져 있음.

EDA

데이터를 분석하는 과정 중에 가장 많이 사용하는 분석 방법을 Exploratory Data Analysis 라고함. 도표, 그래프, 요약 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법

[목적]
1. 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
2. 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정
3. 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
4. 분석 데이터에 적절한가 평가, 추가 수집, 이상치(너무 튀는 데이터) 발견 등에 활용

데이터 시각화

도표라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것.
데이터를 스토리델링한다.

시각화 툴(BI 툴)

  • excel, 태블로

오픈소스 시각화 기능

  • zeppelin, 파이썬, R

데이터의 기초 통계량

기초 통계량

  • 통계량은 표본으로 산출한 값으로, 기술통계량이라고도 표현함
  • 통계량을 통해 데이터(표본)가 갖는 특성을 이해 할 수 있음.

중심 경향치

  • 표본의 중심을 설명하는 값 = 대표값 = 중심경향치
  • 대표적인 중심 경향치: 평균, 중앙값, 최빈값, 절사 평균 등

  • 평균은 표본으로 추출된 표본 평균이라고 하며, 모집단의 평균을 모평균이라고 하며 u라고 표기함

*중앙값(median)

  • 가운데 위치하는 값
  • 관측치가 홀수: 중앙, 관측치가 짝수: 가운데 두개의 값을 산술 평균한 값
  • 이상치가 포함된 데이터에 대해서 사용함.

*최빈값(mode)

  • 관측치 중에서 가장 많이 관측되는 값
  • 옷 사이즈와 같이 명목형 데이터의 경우 사용

*산포도

  • 데이터가 어떻게 흩어져 있는지 확인하기 위해서는 중심경향치와 함께 산포에 대한 측도를 같이 고려해야함.
  • 데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음.

범위(Range)
: 데이터의 최대값과 최소값의 차이

사분위수(quartile)
: 전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫 번째를 제1사분위수(Q1), 두 번째를 제2사분위수(Q2), 세 번째를 제3사분위수(Q3)이라고 함.
사분위수 범위:IQR = 제3사분위수(Q3) - 제1사분위수(Q1)

백분위수(percentile)
: 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값.
제 p백분위수는 p%에 위치한 자료 값을 말함.
데이터를 오름차수로 배열하고 자료가 n개가 있을 때, 제(100*p) 백분위수는 아래와 같음.
1) np가 정수이면, np 번째와 (np+1) 번째 자료의 평균
2) np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료(n=10, p=0.75 -> np=7.5 -> m=8)

분산(variance)
: 데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도.
데이터의 각각의 값들의 편차 제곱합으로 계산하며 수식은 아래와 같음.

표준 편차(standard deviation)
: 분산의 제곱근으로 정의

모분산
: 크기가 N인 모집단의 평균을 u라고 할 때 모평균과 모분산은 다음과 같음

변동계수(Coefficient of Variation: CV) - 생각보다 많이 사용함
: 평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용함.
표준편차를 평균으로 나눔.

왜도(skew)

자료가 얼마나 비대칭적인지 표현하는 지표. 왜도가 0이면 좌우가 대칭이고, 0에서 클수록 우측꼬리가 길고 0에서 작을수록(음수) 좌측 꼬리가 김

첨도(kurtosis)

확률분포의 꼬리가 두꺼운 정도를 나타내는 척도.
첨도값(K)이 3에 가까우면 산포도가 정규분포에 가까움.
3보다 작을 경우에는(K<3) 산포는 정규분포보다 꼬리가 얇은 분포로 생각할 수 있다.
3보다 큰 양수이면(K>3) 정규분포보다 꼬리가 두꺼운 분포로 판단

0개의 댓글