통계 - 기초 통계량, 확률, 확률변수, 확률분포 : 데이터 취업 스쿨 스터디 노트 1/1

slocat·2024년 1월 1일
0

start-data

목록 보기
55/75

1. 통계학

  • 기술통계학(descriptive statistics) : 데이터를 수집하고 정리, 요약하는 방법론
  • 추론통계학(inferential statistics) : 모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론

2. 데이터의 이해

변수(Variable)

수학에서는 정해지지 않은 임의의 값을 표현하기 위해 사용하는 기호를 의미하고, 통계학에서는 조사 목적에 따라 관측된 자료값을 변수라고 한다.

자료(Data)

  • 변수에 대하여 관측된 값들
  • 질적 자료 : 범주로 구분하여 표현할 수 있는 데이터
    • 성별, 주소지(시군구), 업종 등
    • 남자(1), 여자(2)로 표현할 때 숫자 자체는 아무런 의미가 없음
    • 순서형 변수 : 교육수준, 건강상태
  • 양적 자료 : 숫자의 크기가 의미를 가지는 데이터
    • 이산형 데이터, 연속형 데이터

EDA(Exploratory Data Analysis)

  • 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 방법
  • 프로젝트 초기에 가설을 수립하고 적절한 모델/기법을 선정하기 위해 사용
  • 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
  • 분석 데이터에 적절한지 평가하고 추가 수집, 이상치 발견 등에 활용

데이터 시각화(Data Visualization)

  • 데이터 분석 결과를 시각적으로 표현하는 것
  • 도표(Graph)를 통해 정보를 명확하고 효과적으로 전달하는 게 목적이다.
  • 시간 시각화 : 막대 그래프, 누적 막대 그래프, 점 그래프
  • 분포 시각화 : 파이 차트, 도넛 아트, 트리맵, 누적 연속 그래프
  • 관계 시각화 : 스캐터플롯, 버플차트, 히스토그램
  • 비교 시각화 : 히트맵, 스타 차트, 평행 좌표계, 다차원 턱도법
  • 공간 시각화 : 지도 맵핑

3. 기초 통계량

표본으로 산출한 값으로, 데이터(표본)가 갖는 특성을 파악할 수 있다.

중심경향치(대푯값) : 표본의 중심을 설명하는 값

  • 평균 : 모집단으로 부터 관측된 n개의 x가 주어 졌을때 표본 평균은
  • 중앙값 : 관측치를 크기순으로 나열 했을 때 중앙값은
    • 관측치를 크기순으로 나열할 때 가운데 위치하는 값
    • 관측치가 홀수일 경우 중앙에 위치하는 값, 짝수일 경우 가운데 두 개의 값을 산술평균한 값
    • 주로 데이터에 이상치가 포함되어 있을 때 사용
  • 최빈값 : 관측치 중에서 가장 많이 관측되는 값
    • 주로 명목형 데이터일 때 사용

산포도 : 데이터가 흩어진 정도

  • 범위(Range) : 데이터의 최대값과 최소값의 차이
  • 사분위수(Quartile) : 데이터를 오름차순 정렬하여 4등분 할 때 첫 번째부터 제1사분위수(Q1), 제2사분위수(Q2), 제3사분위수(Q3)라고 함
    • 사분위수 범위(IQR, interquartile range) = Q3 – Q1
  • 백분위수(Percentile) : 데이터를 오름차순 정렬하여 주어진 비율에 따라 등분한 값
    • 제p백분위수는 p%에 위치한 자료 값
    • 자료가 n개가 있을 때, 제(100*p) 백분위수는 np가 정수이면,
      np번째와 (np + 1)번째 자료의 평균
      np가 정수가 아니면, np보다 큰 최소의 정수 m번째 자료
  • 분산(Variance) : 각 데이터의 편차 제곱합으로 계산
  • 표준 편차(Standard Deviation) : 분산의 제곱근
  • 모분산, 모표준편차
  • 변동계수(CV, Coefficient of Variation) : 평균이 다른 둘 이상의 그룹 간에 표준편차를 비교할 때 사용
    • 표준편차를 평균으로 나누어서 산출
    • 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교할 수 있음

4. 정규분포

  • 평균과 분산에 따라서 모양이 달라진다.
  • 분산이 크면 분포가 넓어지고, 작으면 분포가 좁아진다.
  • 왜도(Skew) : 자료의 분포가 얼마나 비대칭적인지 표현하는 지표
    • 왜도 = 0 ➡ 좌우 대칭
    • 왜도 > 0 ➡ 우측꼬리가 긺
    • 왜도 < 0 ➡ 좌측 꼬리가 긺
  • 첨도(Kurtosis) : 확률분포의 꼬리가 두꺼운 정도를 표현하는 지표
    • 첨도 = 3 ➡ 산포도가 정규분포에 가까움
    • 첨도 > 3 ➡ 정규분포보다 꼬리가 두꺼움
    • 첨도 < 3 ➡ 정규분포보다 꼬리가 얇음

5. 확률

  • 확률(Probability) : 모든 경우의 수에 대해 특정 사건이 발생하는 비율
  • 표본 공간(Sample Space) : 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합
    • 예) 동전 던지기 S = {앞면, 뒷면}, 주사위던지기 S = {1,2,3,4,5,6}
    • 사건 A가 일어날 확률을 P(A)라고 하고, 표본 공간(S)가 유한집합일때 표본 공간의 모든 원소들이 일어날 확률이 같으면
  • 통계적 확률(경험적 확률)
    • 어떤 시행을 N번 반복했을 때, 사건 A가 r번 일어난 경우 r/N이고, 이를 사건 A가 발생할 상대도수라고 함
    • N이 무한히 커지면 상대도수는 일정한 수로 수렴함
    • 예) 타자가 타석에서 안타를 칠 확률, 공정에서 제품이 정상일 확률(수율)
  • 확률의 성질
    • 합사건(Union) : 사건 A 또는 B가 일어날 확률
    • 곱사건(Intersection) : 사건 A와 B가 동시에 일어날 확률
    • 배반사건(Mutually Exclusive Event) : 사건 A와 B가 동시에 일어날 수 없을 때
    • 여사건(Complement) : 사건 A가 일어나지 않을 확률
  • 순열과 조합

    • n!(Factorial) : n개를 일렬로 줄 세우는 경우의 수
    • 순열(Permutation) : 순서를 고려하여 n개 중 r개를 뽑아서 배열하는 경우의 수
    • 조합(Combination) : 순서를 고려하지 않고 n개중 r개를 뽑아서 배열하는 경우의 수
  • 조건부 확률(Conditional Probability) : 사건 A가 발생한 상황에서 사건 B가 발생할 확률
  • 확률의 곱셈법칙
  • 베이즈 정리(Bayes’ Theorem) : 표본 공간 S에서 서로 배반인 사건 B1, B2, ... Bk에 의해 분할되어 있을 때 임의의 사건 A에 대하여

6. 확률변수

  • 확률변수(Random Variable) : 표본공간에서 각 사건에 실수를 대응시키는 함수
  • 확률 변수의 값은 하나의 사건에 대해 하나의 값을 가지고, 실험 결과에 따라 변함
  • 확률 변수는 대문자(X, Y)로 표현하고, 확률변수의 특정값은 소문자(x, y)로 표현
  • 이산 확률 변수(Discrete Random Variable) : 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
  • 연속 확률 변수(Continuous Random Variable) : 연속형 또는 무한대와 같이 셀 수 없는 경우
    • 예) 반도체 1000개의 wafer 중 불량품의 수, 공장에서 생산하는 전구의 수명, 주사위를 던질 때 나오는 눈의 수

확률변수의 평균(기대값)

  • 주사위를 던졌을 때 기대값
  • a, b가 상수이고 X, Y를 임의의 확률변수라고 할 때

확률변수의 분산

  • a, b가 상수이고 X, Y를 임의의 확률변수라고 할 때

공분산 : 2개의 확률변수의 선형 관계를 나타내는 값

  • 하나의 값이 상승할 때 다른 값도 상승하면 양의 공분산
  • 하나의 값이 상승할 때 다른 값은 하락하면 음의 공분산

7. 이산형 확률분포

* 확률분포 : 확률변수 X가 취할 수 있는 모든 값과 그 값이 나타날 확률을 표현한 함수

이산형균일분포, 베르누이분포, 이항분포, 포아송분포, 기하분포, 음이항분포, 초기하분포

8. 연속형 확률분포

균일분포, 정규분포, 감마분포, 지수분포, 카이제곱분포, 베타분포

확률밀도함수(Probability Density Function)

연속형 확률변수 X에 대하여 함수 q가 다음의 조건을 만족하면 확률밀도함수라고 함

  • 확률밀도함수의 성질
  • 확률밀도함수의 평균과 분산

누적분포함수(Cumulative Density Function)

  • 확률밀도함수를 적분한 것
  • 누적분포함수의 성질

정규분포(Normal Distribution)

  • 확률변수가 X, 평균이 μ이고, 분산이 σ²인 정규분포를 따를 때 확률밀도함수는
  • 정규분포의 평균과 분산
  • 파라미터에 따른 정규분포 모양 비교
  • 정규분포의 성질

표준정규분포포(Standard Normal Distribution)

  • 이항분포의 정규 근사 : X ~ B(n, p)일 때, 확률변수 X는 n이 충분히 클 때 근사적으로 정규분포 X ~ N(np, np(1-p))를 따름

지수분포(Exponential Distribution)

  • 단위 시간당 발생할 확률 λ인 어떤 사건의 횟수가 포아송분포를 따르다면, 어떤 사건이 처음 발생할 때까지 걸린 시간 확률변수 X는 지수분포
  • 지수분포와 포아송분포의 관계
  • 예) 버스 정류장에서 100번 버스가 도착하는 횟수가 포아송 분포를 따른다면, 첫 번째 버스가 도착할 때까지의 대기 시간의 분포가 지수분포
  • 연속 되는 사건 사이의 대기 시간도 지수 분포
  • 예) 앞의 예시에서 두 번째 버스가 도착하고 세 번째 버스가 도착할 때까지의 대기 시간도 지수분포
  • 지수분포의 평균과 분산
  • 지수분포의 무기억성 (Memoryless Property) : 어떤 시점부터 소요되는 시간은 과거 시간에 영향을 받지 않음
    • 예) 버스를 기다리는 대기시간은 먼저 기다린 사람과 확률이 같음
    • 예) 전구를 한 달 동안 사용했을 때 남은 수명은 한 달 간 사용한 것에 영향을 받지 않음(새 전구와 한달 간 사용한 전구의 남은 수명이 같다고 함)
    • 이러한 문제로 인해 실제 적용에 어려움이 있어, 생존 분석에서는 Weibull 분포나 log-normal 분포를 사용하여 예측

확률분포의 관계도

🚗🚗🚗
오늘은 자료를 쭉 훑어보면서 어떤 내용이 있는지 확인하기만 했다.
이론적인 부분을 한 번에 다 이해하려고 애쓰기 보다는, 필요할 때마다 꺼내보면서 어떻게 적용되는지 배워가는 게 더 중요할 것 같다.

1개의 댓글

comment-user-thumbnail
2024년 1월 2일

항상 잘 보고 있습니다. 정리를 정말 잘해주셔서 복습 잘 해갑니다.

답글 달기