[통계 101 데이터분석] 1~3장

soyoung·2024년 9월 18일

1장 통계학이란?

"데이터 분석의 목적은 무엇인가?"

데이터를 요약하는 것
대상을 설명하는 것
- 설명에는 수준이 있다.
- ex) 관계성
  - 인과관계: 하나(원인) 변화 >> 다른 하나(결과)도 변화
  - 상관관계: 한쪽이 크면 다른 한쪽도 큰 관계
새로 얻을 데이터를 예측하는 것
: 기존 데이터를 기반으로 목적에 맞게 새로운 데이터 예측

데이터의 퍼짐을 설명하고 예측한다.
: 확률을 사용하자 = 확률론

기술통계: 수집한 데이터를 정리하고 요약하는 방법, 데이터의 성질을 이해
추론통계: 수집한 데이터로부터 데이터의 발생원을 추정하는 방법
1) 통계적 추론: 데이터에서 가정한 확률 모형의 성질을 추정하는 방법
2) 가설검정: 세운 가설과 얻은 데이터가 얼마나 들어맞는지를 평가하여, 가설을 채택할 것인가를 판단하는 방법

다양한 분석 방법: 데이터 유형, 변수 개수, 가정하는 확률 모형 등에 따라 통계 분석 방법이 달라진다.

데이터 분석 시작 단계: 목적 & 대상 정하기!!

모집단: 알고자 하는 대상 전체
'지금 알고자 하는 대상은 무엇인지' & '무엇을 모집단으로 설정할 것인지'
- 모집단 크기에 따라 유한모집단/무한모집단

변수: 공통의 측정 방법으로 얻은 같은 성질의 값
- 1변수 -> 2변수 -> 3변수 -> ... -> 고차원 데이터 (>>> 변수 사이의 관계성 파악)
  *변수의 개수 = 차원
데이터 유형
1) 양적 변수(수치형 변수)
- 이산형: 얻을 수 있는 값이 점점이 있는 변수, 셀 수 있는 숫자 데이터
- 연속형: 간격 없이 이어지는 값으로 나타낼 수 있는 변수
2) 질적 변수(범주형 변수)
- ex) 예/아니요, 앞/뒤, 식당 메뉴

기댓값: 변수가 확률적으로 얼마나 발생하기 쉬운가를 평균적인 값으로 나타낸 값 ${\displaystyle \operatorname {E} [X]=\sum _{i}p_{i}x_{i}} (이산형)$ ${\displaystyle \operatorname {E} [X]=\int _{-\infty }^{\infty }xf(x)\ \operatorname {d} x} (연속형)$
분산과 표준편차 ${\displaystyle \operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2}} (이산형)$ ${\displaystyle \operatorname {Var} [X]=\int _{-\infty }^{\infty } (x_{i}-\mu )^{2}f(x)\ \operatorname {d} x} (연속형)$
왜도: 분포가 좌우대칭에서 어느 정도 벗어났는지/ 첨도: 분포가 얼마나 뾰족한지, 그래프의 꼬리가 차지하는 비율이 얼마인지
동시확률분포 P(X, Y)
- 독립일 때 P(X, Y) = P(X) * P(Y)
조건부 확률 P(X|Y) : Y의 정보가 주어졌을 때 X의 확률

이론적인 확률 분포는 수식으로 표현되며, 분포의 형태를 정하는 숫자인 파라미터(모수)를 가진다.
정규 분포
N(μ, σ2)
표준정규분포 = N(0, 1)
표준화
평균 0, 표준편차 1로 변환
평균과의 거리가 표준편차의 몇 배인가를 나타내기 때문에 본래의 평균과 표준편차에 상관없이 분포 안에서 어디에 위치하는가를 알 수 있다. $Z= X(확률변수)−μ(평균)/σ(표준편차)$