통계, 데이터 이해, 확률 이론

Sooin Yoon·2025년 3월 10일

Introduce

통계학(statistics): 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 한 부야
데이터 -> 통계적 분석 -> 예측 및 의사 결정

기술통계학(descriptive statisctics)

: 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할수 있도록 정리 요약 설명하는 방법론

추론통계학(inferential statictics)

: 모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론

통계(가설, 검증) -> 데이터 마이닝(예측 모델링, 텍스트 마이닝) -> 빅데이터(머신러닝, 딥러닝) -> AI(빅데이터, 머신러닝, 딥러닝)

데이터 수집 및 처리 : oracle, spark, hadoop, kibana, cloudera
분석 툴 : sas, R, studio, python, tensorflow
시각화 : tableau, TIBCSpotfire, excel

데이터의 이해

데이터와 그래프
변수(Variable) : 변하는 숫자(수학), 조사 목적에 따라 관측된 자료값을 변수(통계학)
해당 변수에 대하여 관측된 값이 DATA(자료)

  • 질적 자료(명목형 변수/순서형 변수)
    몇 개의 범주로 구분하여 표현할 수 있는 데이터를 의미함
  • 양적 자료(이산형 변수 / 연속형 변수)
    관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고 있음
    숫자를 표현할 때는 이산형 데이터와 연속형 데이터로 구분할 수 있음

EDA(Exploratory Data Analysis)

: 데이터를 분석하는 과정 중에 가장 많이 사용하는 분석 방법
데이터를 탐색하는 분석 방법(도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 바업)
목적 :
1. 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
2. 데이터 분석 프로젝트 초기에, 적절한 모델 및 기법의 선정
3. 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
4. 분석 데이터에 적절한가 펴ㅛㅇ가 추가 수집, 이상치 발견 등에 활용

DATA visualization(데이터 시각화)

  • 시간 시각화 : 막대 그래트, 누적 막대 그래프, 점 그래프
  • 분포 시각화 : 파이차트, 도넛 아트, 트리맵, 누적 연속 그래프
  • 관계 시각화 : 스캐터플롯, 버플차트, 히스토그램
  • 비교 시각화 : 하트맵, 스타 차트, 평행 좌표계, 다차원 턱도법
  • 공간 시각화 : 지도 맵핑

데이터의 기초 통계량

중심경향치

: 데이터를 이해하기 위해서 표본의 중심에 대해서 관심을 갖지 때문에 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심 경향치라고 함(평균, 중앙값(median) 가운데 위치하는 값, 최빈값(mode) 가장 많이 관측되는 값, 절사 평균)

평균: 모집단으로부터 관측된 n개의 x가 주어 졌을 때,

평균은 표본으로 추출도니 표본 평균(sample mean) x bar
모집단의 평균을 모평균

중앙값(median)
: ex) 80, 82, 84, 85, 90, 95, 100 : 85
80, 82, 84, 85, 90, 95, 95, 100 : (85+90)/2 = 87.5

산포도
: 데이터가 어떻게 흩어져 있는지를 확인하기 위해서는 중심 경향치와 함께 산포에 대한 측도를 같이 고려해야함
데이터의 산포도를 나타내는 측도로 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음

  • 범위(range)
    : 데이터의 최대값과 최소값의 차이를 의미함
  • 사분위수(quartile)
    : 전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫번째를 제1사분위수(Q1), 두번째를 제2사분위수(Q2), 세번째를 제3사분위수(Q3)
    IQR(interquartile range, 사분위수 범위) = Q3-Q1
  • 백분위수(percentile)
    : 전체 데이터가 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 말하며, 제 p백분위수는 p%에 위치한 자료 값을 말하
    데이터를 오름차순로 배열하고 자료가 n개가 있을때, 제 (100 * p)백분위수는 아래와 같음
    1) np가 정수이며, np번째와 (np+1)번째 자료의 평균
    2) np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할때 m번째 자료
  • 분산(variance)
    : 데이터의 분포가 얼마나 흩어져 잇는지를 알수 있는 측도
    데이터의 각각의 값들의 편차 제곱합으로 계산
  • 표준편차(standard deviation)
    : 분산의 제곱근
  • 변동계수(Coefficient of Variation:CV)
    : 평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용함
    변동계수는 표준편차를 평균으로 나누어서 산출하여 단위나 조건에 상관없이 서로 다른 그룹의 산포를 비교하여 실제 분석에서 자주 사용함
  • skew(왜도)
    : 자료의 분포가 얼마나 비댕칭적인지 표현하는 지표, 왜도가 0이면 좌우가 대칭이고, 0에서 클수록 우측꼬리가 길고 0에서 작을수록 좌측 꼬리가 김
  • kurtosis(첨도) , K(첨도값)
    :확률분포의 꼬리가 두꺼운 정도를 나타내는 척도임
    K가 3에 가까우면 산포도가 정규분포에 가까움
    K<3 정규분포보다 꼬리가 얇은 분포
    K>3 정규분포보다 꼬리가 두꺼운 분포

확률분포

확률(probability)

: 모든 경우의 수에 대한 특정 사건이 발생하는 비율, 0~1 사이의 확률에 100을 곱하여 0과 100사이의 백분율(%) 로 나타냄

표본공간(sample space)

: 표본공간이란 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 합
동전 던지기의 경우 S ={앞면, 뒷면}, 주사위던지기 S={1,2,3,4,5,6}
사건 A가 일어날 확률을 P(A), 표본 공간(S)가 유한집합일 때 표본 공간의 모든 원소들이 일어날 확률
P(A) = 사건A가 일어나 원소의 수 / 표본공간 s의 원소의 수

ex) 동전 두 개를 던져서 뒷면이 한번만 나오는 확률은 얼마인가?
표본공간 S ={(앞,앞), (뒤,뒤),(앞,뒤),(뒤,앞)}
사건 A = {(앞,뒤),(뒤,앞)}
P(A) = 2/4 =1/2

확률의 성질
1. union(합사건):사건A 또는 사건B가 일어날 확률, A∪B
2. intersection(곱사건) : 사건A와 사건B가 동시에 일어날 확률, A∩B
3. mutually exclusive event(배반사건) : 사건A와 사건B가 동시에 일어날 수 없을 경우, A∩B = ∅
4. complement(여사건) : 사건A가 일어나지 않을 확률 A^c)

확률의 덧셈 법칙 : P(A∪B)=P(A)+P(B)−P(A∩B)
A의 여사건이 A^c이면 P(A)+P(A^c)=1

조합과 순열

  • !(factorial) : n개를 일렬로 늘여 높은 경우의 수
    n! = n(n-1)(n-2)...2*1
  • Permutation(순열) : 순서를 고려하여 n개 중 r개를 뽑아서 배열하는 경우의 수
    P(n,r)=nPr= n!/(n−r)!
  • Combination(조합): 순서를 고려하지 않고 n개 중 r개를 뽑아서 배열하는 경우의 수
    C(n,r)=nCr=nPr= n!/r!(n−r)!

조건부확률(conditional probability)

: 어떤 사건 A가 발생한 상황에서 또 하나의 사건B가 발생할 확률임
P(B|A) = P(A∩B)/P(A), P(A) != 0
P(A|B) = P(A∩B)/P(B), P(B) != 0

확률의 곱셈 법칙 : P(A∩B) = P(A) P(B|A) = P(B) P(A|B)
사건 A와 B가 독립일 경우, P(A∩B) = P(A) * P(B)

베이즈 정리(Bayes' Theorem)

확률변수(random variable)

  • 표본공간에서 각 사건에 실수를 대응시키는 함수를 확률 변수
  • 확률변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변함
  • 일반적으로 확률변수는 대문자(X,Y 등)로 표현하며, 확률변수의 특정값을 소문자(x,y 등)로 표현함
  • discrete random variable(이산확률변수): 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
  • continous random variable(연속확률변수): 연속형 또는 무한대와 같이 셀 수 없는 경우
  • 확률변수의 평균 = 기대값 = E(X)
  • 확률변수의 분산 = Var(X)

기대값의 성질
a) E(a) = a
b) E(aX) = aE(X)
c) E(aX+b) = aE(X)+b
d) E(aX+bY) = aE(X)+bE(X), E(aX-bY) = aE(X)-bE(X)
e) X,Y가 독립일 때 E(XY) = E(X)E(Y)

분산의 성질(a,b가 상수이고 X, Y를 임의의 확률변수라고 할때)
a) Var(a)=0
b) Var(aX)= a^2Var(X)
c) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
d) Var(aX+bY) = a^2Var(X)+b^2Var(Y)+2Cov(X,Y)
e) X, Y가 독립일때, Var(XY) = 0
f) Var(X) =E(X^2)−(E(X))^2

공분산
: 2개의 확률변수의 선형관계를 나타내는 값으로 하나의 값이 상승할때 다른 값도 상승한다면 양의 공반산을 가지고 반대로 값이 상승할 때 하락한다면 음의 공분산으로 가짐
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]

0개의 댓글