평균과 기댓값

rokky·2023년 4월 2일

통계

목록 보기
10/17

평균

  • 일반적으로 산술평균을 사용하며 다양한 종류가 존재한다.
  • 산술 평균(arithmetric mean) : 모든 관측값을 더해 관측값의 개수로 나눈 것

특정 집단을 대표하는 값

  • 평균이 특정 데이터 집단을 대표하기 적절한가?
    ex) 마이클 조던이 졸업한 지리학과가 평균 연봉이 가장 높게 나오는 오류가 존재했다.
    -> 이상치가 있을 때 좋지않은 대표값이 되어버린다.

중앙값

  • 중앙값(median): 주어진 값들을 순서대로 정렬했을 때 가장 중앙에 위치하는 값

평균 VS 중앙값

  • 평균과 중앙값이 효과적인 상황
  • 평균 : 데이터 분포가 정규분포처럼 대칭된 경우
  • 중앙값 : 데이터 분포가 한쪽으로 치우치건 이상치가 존재할 경우

ex1) 이상치 존재 상황

  • 6명의 점수가 100,99,98,95,92,2 점이라고 하자
    평균은 81점이 나오는데 2점이라는 이상치로 인해서 평균값이 급격히 떨어져버린다.

  • 다음 표를 이용해서 평균과 중앙값을 알아보자

기댓값

  • 각 사건에 대해 확률 변수와 확률 값을 곱하여 전체 사건에 대해 모두 더한 값

  • 기댓값과 산술 평균은 서로 유사하며 서로 섞어서 사용하기도 한다.

  • 이산확률 변수에서의 기댓값

  • 연속확률 변수에서의 기댓값

평균 vs 기댓값

  • 평균과 기댓값은 서로 사용되는 문맥이 다르다
  • 기댓값 : 새로운 데이터가 관측되었을 때 그 데이터가 확률적으로 어떤값을 가질지를 예측할 때
  • 평균 : 이미 구해진 값에 대하여 통계적인 특성을 분석할 때

0개의 댓글