기초통계 (4) 이진 데이터와 범주 데이터 탐색

생각하는 마리오네트·2021년 8월 1일
0

통계

목록 보기
11/41

📈 용어 정리

  • 최빈값(mode) : 데이터에서 가장 자주 등장하는 범주 혹은 값
  • 기댓값(expected value) : 범주에 해당하는 어떤 수치가 있을 떄, 범주의 출현 확률(probability)에 따른 평균
  • 막대도표(bar chart) : 각 범주의 빈도수 혹은 비율을 막대로 나타낸 그림
  • 파이그림(pie chart) : 각 범주의 빈도수 혹은 비율을 원의 부채꼴 모양으로 나타낸 그림

📈 막대도표(bar-chart)

  • 어떤 범주형 자료를 보여줄 때 사용되며 x축에 각각의 범주를 놓고, y축에 각 범주에 해당하는 횟수 혹은 비율등을 표시한다.
  • python에서 사용이 가능하다.
  • 히스토그램과 다른점은 중간에 틈이 있어 서로 떨어져 있다는 점이다.
  • 막대도표 대신 파이그림을 사용하기도 하지만, 통계나 데이터 시각화 전문가들은 파이그림이 시각적으로 효과적이지 않다는 이유로 잘 사용하지 않는다.

(수치형 데이터를 범주형 데이터로 변환해줌으로서 데이터의 복잡도를 줄여줄 수 있어서 자주 사용되기도 한다. 특히 데이터를 분석할때 피처들 사이의 관계를 알아보기위해 사용하기도 한다.)

🎓 기댓값(expected value)

통계를 배우다 보면, 혹은 데이터 직군을 위해 공부를 하다보면 기대값(expected value)라는 말이 종종 나온다. 이 기댓값은 무엇을 의미하는것일까??

  • 각 결과가 발생 확률을 곱하고 이 값들을 모두 더하는것이다. 예제로 살펴보자
  • 한 서비스 이용료가 매달 30만원이고, 나머지 하나는 매달5만원이다. 영업 사원이 고객 명단을 확보하기 위해 무료 세미나를 진행하였다. 그 결과 참석자의 5%정도가 30만원 짜리 상품에, 15% 정도가 5만원 상품에 가입하고, 나머지 80%정도는 어느 것에도 가입하지 않을 것이라고 판단하였다. 상업적인 목적을 위해 이러한 정보에서 기댓값을 뽑아낼 수 있다. 가중치가 해당 확률이 되는 가중평균이 바로 기대값이다.
  • Expected Value = (0.05)(300) + (0.15)(50) + (0.80)(0) = 22.5
  • 기댓값은 실제 사업 평가나 자본 예산에 가장 근본적인 토대가 된다.
profile
문제를해결하는도구로서의"데이터"

0개의 댓글