[251105] 내배캠 D+13

최다빈·2025년 11월 5일

D+13 통계학 기초 정리하기 1-1


음 SQL? 재밌군.. 음 판다스? 재밌군..
음 통계학 기초? 나쁘지 않아..
음 파이썬? 우우 붐따

코드나 쿼리를 입력하고 실행했을 때,
자료가 촤라락 나오는 프로그램을 좋아하는 것 같다.


한 것 :

  • 데이터 전처리 타파하기! (Pandas)
  • 통계학 기초 챕터 1 완강하기!
  • Python 라이브세션 2까지 복습하기

기술 통계 & 추론 통계

1) 기술 통계
데이터를 요약하고 설명하는 통계 방법.

  • 주로 평균, 중앙값, 분산, 표준편차 등을 사용함.
  • 즉 데이터를 특정 대표값으로 요약
  • 데이터에 대한 대략적 특징을 간단하고 쉽게 알 수 있음
  • 단, 데이터 중 예외는 항상 존재할 수 있고, 데이터의 모든 부분을 확인할 수 있는 건 아님

사람을 처음 만날 때 그 사람의 전부는 알 수 없지만, 기본적인 인적 사항(외모, 직업, 학려그 나이 등등)으로 대략적 파악이 가능한 것과 같음


평균

  • 평균은 데이터의 중앙값을 나타내는 값.

중앙값

  • 데이터셋을 크기 순서대로 정렬할 때 중앙에 위치한 값.
  • 이상치에 영향을 덜 받기에
    데이터의 중심 경향을 나타내는 방법이기도 함.

분산

  • 데이터 값이 평균으로부터 얼마나 떨어져 있는지 나타내는 척도. 흩어짐 정도를 측정함
  • 분산과 데이터는 비례함 (크면 퍼져 있고, 작으면 평균에 가깝게 모여 있음)
  • 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누는 것

분산 계산 예시

학생 네 명의 시험 점수는 70, 80, 90, 100으로 가정. 평균은 85점.
각 데이터 값에서 평균을 뺀 값을 제곱하면?

  • (70 - 85)^2 = 225
  • (80 - 85)^2 = 25
  • (90 - 85)^2 = 25
  • (100 - 85)^2 = 225

값을 모두 더한 후 데이터의 개수로 나누면?
분산 = (225 + 25 + 25 + 225) / 4 = 125


표준 편차

  • 데이터 값 평균에서 얼마나 떨어져 있는지 나타내는 통계적 척도.
  • 데이터의 변동성을 측정
  • 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져 있음

표준편차 계산 예시

네 명의 학생 시험 점수는 70, 80, 90, 100`으로 가정. 평균은 85점.

(70 - 85)^2 = 225
(80 - 85)^2 = 25
(90 - 85)^2 = 25
(100 - 85)^2 = 225

분산은 (225 + 25 + 25 + 225) / 4 = 125.
표준편차는 분산의 제곱근.
분산에 루트(root)를 씌워 약 11.18


추론 통계

표본 데이터를 통해 모집단의 특성 추정 & 가설 검정하는 통계 방법

-주로 신뢰구간, 가설검정 등을 사용함.

  • 핵심: 데이터의 일부를 가지고 데이터 전체를 추정하는 것

누군가의 인생을 전부 다 본 건 아니지만, 대화를 통해 얻어낸 정보로 어떤 사람일지 알아가는 것과 같음


신뢰 구간

  • 모집단의 평균이 특정 범위 내에 있을 것이라는 확률을 나타냄
  • 일반적으로 95% 신뢰구간이 사용되며, 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미함.

평균 만족도: 75점. 신뢰구간: 70점~80. 95% 확률로 실제 평균 만족도가 이 범위 내에 있다고 판단 가능


가설 검정

설을 검증하기 위해 사용됨.
일반적으로 귀무가설과 대립가설이 있음

귀무가설(H0):
검증하고자 하는 가설이 틀릴 때 나타내는 기본 가설.
(변화 없음, 효과 없음 등)

대립가설(H1):
주장하는 바를 나타냄
(변화가 있음, 효과 있음 등)

p-value를 통해 귀무가설을 기각할지 여부를 결정함

ex) 새로운 교육 프로그램이 학생들의 성적에 영향을 미치는지 알고 싶다! 귀무가설: "프로그램이 성적에 영향을 미치지 않는다" 대립가설: "프로그램이 성적에 영향을 미친다"

profile
Running on hopes and tiny skills...

0개의 댓글