통계가 중요한 이유?
통계로 데이터를 이해하고 해석할 수 있다.
데이터를 요약하고 패턴을 발견할 수 있다.
추론을 통해 결론을 도출화하는 과정을 돕는다.
= 데이터 기반의 의사결정!
1) 기술 통계
- 데이터를 요약하고 설명하는 통계 방법 (평균,중앙값,분산,표준편차 등)
평균 : 데이터의 중앙값 (모든 데이터를 더한 후 데이터 개수로 나누기
= 데이터의 일반적인 경향을 파악하는데 유용
중앙값 : 데이터를 크기 순으로 정렬할 때 중앙에 위치한 값.
= 이상치의 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법
EX) 20대 평균 소득이 5,000만원이다? => 뉴진스라는 이상치의 영향
분산 : 데이터의 값이 평균으로부터 얼마나 떨어져 있는지를 나타냄. 데이터의 흩어짐 정도.
= 분산이 크면 데이터가 넓게, 작으면 평균에 가깝게 모여있음을 의미
표준편차 : 데이터 값들이 평균에서 얼마나 떨어져있는지를 나타내는 통계적 척도, 분산의 제곱근으로 계산
= 데이터의 변동성을 측정하며, 값이 클수록 평균으로부터 넓게 퍼져있음
2) 추론 통계
신뢰구간 : 모집단의 평균이 특정 범위 내에 있을 것이라는 확률
가설검정 : 모집단에 대한 가설을 검증하기 위해 사용
1. 귀무가설 : 검증하고자하는 가설이 틀렸음을 나타내는 기본가설.
2. 대립가설 : 반대가설로 주장하는 바를 나타냄.
= p-value를 통해 귀무가설을 기각할지 여부 결정
EX) 새로운 교육프로그램이 학생들의 성적에 영향을 미치는가?
-> 귀무가설 : 프로그램이 성적에 영향을 미치지 않는다.
-> 대립가설 : 프로그램이 성적에 영향을 미친다.
통계의 분석 방법
1) 위치추정
데이터의 중심을 확인하는 방법 = 평균, 중앙값 확인
2) 변이추정
데이터들이 서로 얼마나 다른지 확인하는 방법 = 분산, 표준편차, 범위 등 사용
범위 : 데이터에서 가장 큰 값과 가장 작은 값의 차이.
3) 데이터 분포 탐색
데이터의 값들이 어떻게 이루어져 있는지 확인하기 = 하나의 대표값이 아닌 여러 값이 나오며, 히스토그램과 상자그림으로 시각적으로 표현
4) 이전 데이터와 범주 데이터 탐색
데이터들이 서로 얼마나 다른지 확인하는 방법 = 최빈값을 주로 사용, 파이그림과 막대그래프가 대표적인 시각화
통계학 세션
데이터의 종류
1. 수치형 데이터 : 숫자를 이용해 표현할 수 있는 데이터
1-1) 연속형 : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 (체중,신장)
1-2) 이산형 : 횟수와 같은 정수형 값만 취할 수 있음 (소수점 X)
편차, 분산, 표준편차, 표본분포..?
편차 : 각 점수가 평균에서 얼마나 떨어져 있는지를 계산한 값 (점수 - 평균)
다만! 전체의 편차를 나타내기 위해 각각의 편차를 모두 더하면 0이 됨.
따라서~ 편차로는 반 전체의 점수 분포를 알 수 없기에 분산을 활용
분산 : 편차의 합이 0으로 나오는 것을 방지하기위한 개념 (편차를 제곱해서 평균 낸 값)
다만 ! 제곱을 해줬기에 값이 너무 크게 나옴.
따라서~ 이를 해결하기 위해 표준편차를 활용
표준편차 : 분산의 제곱근, 분산은 단위가 제곱이라 해석이 어렵기에 표준편차로 원래 단위로 다시 바꿔줌.
EX) 분산이 466이면 분산의 제곱근인 표준편차는 약 21.6
= 따라서 전체의 점수가 약 21.6만큼 퍼져있다 라고 해석 가능
모집단, 표본..?
정규분포

정규분포의 특징
1. 분포는 평균을 중심으로 좌우 대칭의 형태
2. 곡선은 각 확률값, 모두 더하면 1(100%)이 됨
3. 정규분포는 평균과 분산에 따라 다른 형태를 가짐
4. 평균 0, 분산 1을 가지는 경우, 이를 표준정규분포라고 함. (그림의 붉은색 그래프)
신뢰구간, 신뢰수준
신뢰구간 : 특정 범위 내에 값이 존재할 것으로 예측되는 영역
신뢰수준 : 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 확률 (95%,99% 주로 이용)
가설검정
P값(p-value) = 어떤 사건이 우연히 발생할 확률 (0이상, 1이하의 값)