Data Basic

안선경·2023년 2월 27일

statistics

목록 보기
1/8

1. 데이터와 그래프

변수

  • 하나의 컬럼으로서 정해지지 않은 임의의 값을 표현하기 위해 사용되는 기호
  • 해당 변수에서 대하여 관측된 값들이 바로 자료(Data)가 됨

질적 자료

  • 관측된 데이터가 성별,주소지 업종 등과 같이 몇 개의 범주로 구분하여 표현할 수 있는 데이터를 의미
  • 데이터 입력 시 1은 남자, 2는 여자 등 표현이 가능하며 숫자는 의미가 없으며 순서를 나타냄
  • 종류 : 명목형 변수, 순서형 변수

양적 자료

  • 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고 있음
  • 숫자를 표현할 때 이산형 데이터와 연속형 데이터로 구분이 가능
  • 종류 : 이산형 변수, 연속형 변수

데이터 분석 목적

  • EDA : 데이터를 탐색하는 분석 방법으로 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법

  • 목적

    1. 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
    2. 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정
    3. 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
    4. 분석 데이터에 적절한가 평가, 추가 수집, 이상치 발견 등에 활용

    데이터 시각화

  • 시간 시각화 : 막대 그래프, 누적 막대 그래프, 점그래프

  • 분포 시각화 : 파이 차트, 도넛 아트, 트리맵, 누적 연속 그래프

  • 관계 시각화 : 스캐터플롯, 버플차트, 히스토그램

  • 비교 시각화 : 히트맵, 스타 차트, 평행 좌표계, 다차원 턱도법

  • 공간 시각화 : 지도 맵핑

    시각화 도구

  • 엑셀 : 가장 Standard한 시각화 tool

  • Tableau : 현재 가장 많이 관심 받고 사용되고 있는 tool


2. 데이터의 기초 통계량

기초 통계량

  • 통계량은 표본으로 산출한 값으로 기술통계량이라고도 표현

  • 통계량을 통해 데이터(표본)가 갖는 특성을 이해할 수 있음

    중심 경향치

  • 표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심경향치라고 함

  • 대표적인 중심값으로 평균, 중앙값, 최빈값, 절사 평균 등 존재

  • 평균은 표본으로 추출된 표본 평균이라고하며, 모집간의 평균을 모평균이라고 하며 u로 표시

    중앙값(median)

  • 평균과 같이 자주 사용하는 값으로 표본으로부터 관측치를 크기 순으로 나열했을 때 가운데 위치하는 값

  • 관측치가 홀수인 경우 중앙에 취하는 값, 짝수일 경우 가운데 두 개의 값을 산술 평균한 값

    최빈값

  • 관측치에서 가장 많이 관측되는 값

  • 옷사이즈와 같이 명목형 데이터의 경우 사용\

산포도

  • 데이터가 어떻게 흩어져있는지 확인하기 위해서 중심경향치와 함께 산포에 대한 측도를 같이 고려
  • 데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음

범위

  • 데이터의 최대값과 최소값의 차이를 의미

사분위수

  • 전체 데이터를 오름차순으로 정렬하여 4등분 했을 때 첫 번째는 제1사분위수(Q!), 두 번째는 제2사분위수(Q2), 세 번째는 제3사분위수(Q3)dlfkrhgka
  • 사분위수 범위(IQR) : Q3 - Q1

백분위수

  • 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 말하며, 제p백분위수는 p%에 위치한 자료 값을 의미
  • 자료가 n개 주어졌을 때 제(100*p) 백분위수는 다음과 같음

    np가 정수이면, np번째와 (np+1)번째 자료의 평균
    np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료

표본분산

  • 데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도
  • 데이터의 각각의 값들의 편차 제곱합으로 계산함

표준 편차

  • 분산의 제곱근으로 정의함

분산

  • 크기가 n인 모집단의 평균을 u라고 할 때 모평균과 모분산은 수식과 같음
  • 분산의 경우 편차제곱의 합을 나눌 때 n-1을 사용하는 이유가 n의 수가 적을 경우인데, 모집답은 n의 수가 크기에 굳이 n-1으로 나눌 필요가 없음

변동 계수

  • 평균이 다른 두 개 이상의 그룹의 표준편차를 비교할 때 사용
  • 변동계수는 표준편차를 평균으로 나누어서 산출하여 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교하며 실제 분석에서 자주 사용

왜도

  • 자료의 분포가 얼마나 비대칭적인지 표현하는 지표
  • 왜도가 0이며 좌우가 대칭이고, 0에서 클수록 우측 꼬리가 길고, 0에서 작을수록 좌측 꼬리가 김

첨도

  • 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
  • 척도값(K)가 3에 가까우면 산포도가 정규분포에 가까움
  • 3보다 작을 경우 산포는 정규분포보다 꼬리가 얇은 분포로 생각
  • 첨도값이 3보다 큰 양수이면 정규분포보다 꼬리가 두꺼운 분포로 판단

3. 확률

확률 정의 및 성질

  • 모든 경우의 수에 대한 특정 사건이 발생하는 비율
  • 0과 1 사이의 확률에 100을 곱하여 0과 100 사이의 백분율로 나타냄
  • 어떤 사건이 일어날 확률은 다음과 같다

    사건이 일어날 모든 경우의 수 - 사건이 일어나지 않을 경우의 수

표본 공간

  • 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합
  • 동전 던지기의 경우 : {앞면, 뒷면} / 주사위의 경우 : {1,2,3,4,5,6} 등
  • 사건 A가 일어날 확률을 P(A)라고 하고, 표본 공간(S)가 유한집합일 때 표본공간의 모든 원소들이 일어날 확률이 같을 경우

확률의 성질

  • 합사건 : 사건 A 또는 사건 B가 일어날 확률 AuB
  • 곱사건 : 사건 A와 사건 B가 동시에 일어날 확률 AnB
  • 배반사건 : 사건 A와 사건 B가 동시에 일어날 수 없는 경우
  • 여사건 : 사건 A가 일어나지 않을 확률 A^c

조합과 순열

  • factorial( ! ) : n개를 일렬로 늘여 놓은 경우의 수를 n!로 표현
  • 순열 : 순서를 고려하여 n개 중 r개를 뽑아서 배열하는 경우의 수
  • 조합 : 순서를 고려하지 않고 n개 중 r개를 뽑아서 배열하는 경우의 수

조건부 확률

  • 어떤 사건 A가 발생한 상황에서 또 하나의 사건 B가 발생할 확률
  • 확률의 곱셈법칙
  • 베이즈 정리 : 표본 공간 S에서 서로 배반인 사건 b1, b2 ... bk에 의하여 분할 되어 있을 때 임의의 사건 A에 대하여 다음이 성립함

4. 확률 변수

확률 변수 정의

  • 표본 공간에서 각 사건에 실수를 대응시키는 함수를 확률 변수라고 함
  • 확률 변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변함
  • 일반적으로 확률 변수는 대문자로 표현하며, 확률변수의 특정값을 소문자로 표현
  • 종류
    • 이산 확률 변수 : 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
    • 연속 활률 변수 : 연속형 또는 무한대와 같이 셀 수 없는 경우

기대값

  • 확률 변수의 평균(기대값)
  • 주사위를 던졌을 때 기대값
  • 확률 변수의 분산
  • 기대값의 성질 : a, b가 상수이고 X와 Y를 임의의 확률 변수라고 할 때 성립
    1. E(a) = A
    2. E(aX) = aE(X)
    3. E(aX+b) = aE(X) = b
    4. E(aX+bY) = aE(X) + bE(Y)
    5. X, Y가 독립 일 때 E(XY) = E(X) E(Y)
  • 분산의 성질
  • 공분산 : 2개의 확률변수의 선형 관계를 나타내는 값으로, 하나의 값이 상승할 때 다른 값도 상승한다면 양의 공분산, 반대로 하나의 값이 상승할 때 하락한다면 음의 공분산
profile
상황을 바꿀 수 없다면, 나를 바꾸자

0개의 댓글