통계학 기초 1주차 - (1)

SEHEE·2025년 6월 24일
0

⭐통계 개념 정리

목록 보기
1/10

🔥오늘 깨달은 것

🔥오늘 헷갈린 개념

⭐오늘 배운 내용 정리

  • 기술통계와 추론통계 거의 같이 쓰임
  • np는 median과 mean을 쉽게 계산할 수 있게 도와줌.
  • 인과관계 \= 상관관계
    • 인과관계 : 원인 , 결과 분명 , 한 변수가 다른 변수에 미치는 영향
    • 상관관계 : 두 변수간의 관계

❗ 조심해야할것 : 이상치,



1-1.

통계가 중요한 이유
:데이터 기반의 의사결정을 내릴 수 있음
-> 데이터를 이해하고 해석

1-2.

기술통계

  • 평균 = Mean : 데이터의 중간의 값을 나타내는 값
  • 중앙값 = Median : 데이터셋을 크기 순서대로 정렬했을때 중앙에 위치한 값
  • 분산 = Variance : 데이터 값들이 평균으로부터 - 얼마나 떨어져 있는지를 나타내는 척도 -> 데이터의 흩어짐 정도!
    • 분산 大 = 데이터 넓게 퍼져있음
    • 분산 小 = 데이터가 평균에 가깝게 모여있음
    • 분산 식
  • 표준편차 = 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 척도
    • ⭐원래 데이터 값과 동일한 단위로 변환
    • 표준편차식
  • 표준편차 - 분산 관계
    • 동일하게 데이터의 변동성을 측정하는 2가지 주요 척도

추론통계

: 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검증하는 통계 방법
-> ⭐데이터의 일부를 갖고 데이터 전체를 추정하는 것이 핵심
-> 모집단과 표본은 차이가 날 수 밖에 없음

1.3.

다양한 분석 방법

  1. 위치추정
  • 데이터의 중심을 확인하는 방법
    • 대표 : 평균, 중앙값
    • 💻파이썬 실습 :
      mean=np.mean(data)
      median=np.median(data)

  1. 변이추정
  • 데이터들이 서로 얼마나 다른지 확인하는 방법
    • 범위: 데이터셋에서 가장 큰값과 작은 값의 차이를 나타내는 간단한 분포의 측도
    • 범위 수식 : 최댓값-최솟값

  1. 데이터 분포 탐색
  • 데이터들의 값들이 어떻게 이루어져 있는지 확인하기
  • 대표 : 히스토그램 , box plot

  1. 이진 데이터와 범주 데이터 탐색
  • 최빈값( 개수가 제일 많은 값 )을 주로 사용
    • 이진 데이터 ( 숫자 )

  1. 상관관계
  • 데이터들끼리 서로 관련 있는지 확인하는 방법
    -> 두 변수 간의 관계 측정하는 방법
  • -1 or 1에 가까울수록 상관관계 높음
    • 0에 가까울수록 상관관계 X
    • -0.5~0.5 중간

  1. 두 개 이상의 변수 탐색
  • 여러 데이터들끼리 서로 관련 있는지 확인

연습문제
오답 해석
2. 2 -> 기슬통계 : 데이터 요약하고 설명하는데 중점을 둠

profile
안녕하세요! 마케터를 꿈꾸는 취준생입니다 :)

0개의 댓글