데이터 과학을 위한 통계학 - 2

박준영·2020년 1월 22일

Statistics For Data Science

목록 보기

2/2

Statistics For Data Science

탐색적 데이터 분석(Exploratory Data Analysis)
- 이진 데이터와 범주 데이터 탐색하기

1-5 . 이진데이터와 범주 데이터 탐색하기

➔ 범주형 데이터는 간단한 비율이나 퍼센트를 이용해 데이터에 관해 이야기하는 방법이다.

용어	설명
최빈값(Mode)	데이터에서 가장 자주 등장하는 범주 값
기댓값(Expected Value)	범주에 해당하는 어떤 수치가 있을 때, 범주의 출현 확률에 따른 평균 값
막대도표(Bar Chart)	각 범주의 빈도수, 비율을 막대로 나타낸 그림
파이그림(Pie Chart)	각 범주의 빈도수, 비율을 원의 부채꼴 모양으로 나타낸 그림

최빈값(Mode)

➔ 데이터에서 최다 빈도수를 가진 값을 의미. 범주형 데이터를 분석하는데 간단히 사용할 수 있다. 하지만 수치형 데이터에는 사용하지 않는다.

기댓값(Expected Value)

➔ 범주형 데이터중에, 각 범주에 해당하는 수치형 변수들이 존재하는 특별한 경우가 있을 수 있다. 기댓값 계산방법은
1. 각 결과값과 발생확률을 곱한다.
2. 이 값들을 모두 더한다.

👍 범주형 데이터는 보통 비율로 데이터를 요약할 수 있고, 막대도표(Bar Chart)를 사용해 시각화 한다. 👍
👍 기댓값은 어떤 값과 그 값이 일어날 확률을 서로 곱해 더한 값을 의미한다. 주료 요인변수의 수준을 요약하는데 사용한다. 👍

1-6. 상관관계

➔ 많은 경우 모델링 프로젝트에서 EDA라고 하면 예측값들 혹은 예측값과 목표값과의 상관관계를 조사하는것을 빼놓을 수 없다. X가 큰 값을 가지면 Y도 큰 값을 갖고 X가 작은 값을 가지면 Y도 작은 값을 갖는 경우 변수 X와 Y는 서로 상관관계를 갖는다고 말한다. 반대의 경우라면 이 변수들은 서로 음의 상관관계라고 한다.

용어	설명
상관계수(Correlation Coefficient)	수치적 변수들이 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량 (-1 ~ 1)
상관행렬(Correlation Matrix)	행과 열이 변수들을 의미하는 표, 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미한다.
산점도(ScatterPlot)	x축과 y축이 서로 다른 두 개의 변수를 나타내는 도표

두 벡터변수 v1, v2는 모두 작은 값에서 큰 값으로 커지는 식으로 상관관계를 갖고 있다.
v1 = {1,2,3}
v2 = {4,5,6}

두 벡터의 곱의 합은 4+10+18 = 32이다. 이 곱의 합을 측정량으로 사용할 수 있다. 즉, 32라는 수를 위 벡터의 순서를 섞어 계산했을때 나오는 값과 비교할 수 있다. 하지만 이렇게 얻은 값은 재표본추출에 대한 레퍼런스로서의 의미밖에는 없다. 이러한 방법보다는 상관계수라는 표준화된 방식이 훨씬 더 유용하다.

박준영

이전 포스트

데이터 과학을 위한 통계학 - 2

Statistics For Data Science

Statistics For Data Science

1-5 . 이진데이터와 범주 데이터 탐색하기

최빈값(Mode)

기댓값(Expected Value)

1-6. 상관관계

데이터 과학을 위한 통계학 - 1

0개의 댓글