데이터 과학을 위한 통계학 - 1

박준영·2020년 1월 20일
2

Statistics For Data Science

  1. 탐색적 데이터 분석(Exploratory Data Analysis)
    • 테이블 데이터(Rectangular Data)
    • 위치 추정
    • 변이 추정

1 . 탐색적 데이터 분석(EDA)

➔ 정형화되어있든 되어있지 않든 수집한 데이터를 다양한 시각으로 관찰하고 이해하는 방법. 대표적인 방법으론 데이터들을 그래프로 표현해 직관적인 방법으로 해석하는 방법이있다. 데이터과학의 중요한 목적은 방대한 원시데이터들을 활용가능한 데이터의 형태로 변환시켜주는 것이다.

용어설명
연속형(Continuous)일정 범위 안에서 어떤 값이든 취할 수 있는 데이터
이산(Discrete)횟수와 같은 정수만 취할 수 있다.
범주형(Categorical)가능한 범주 안의 값만을 취할 수 있다.
이진(Binary)두 개의 값(0/1, True/False ...)
순서형(Ordinal)값들 사이에 순서가 정해져 있는 데이터

연속형 데이터와 범주형 데이터의 경우 가장 일반적인 기본이되는 데이터의 종류이다.
연속형 데이터는 풍속, 지속 시간등의 경우가 있고 이산 데이터는 사건의 발생 빈도등이 있다. 범주형 데이터는 도시명, 국가명등과 같이 범위가 정해져있는 경우를 의미한다.
순서형 데이터는 영화평점등 순서가 정해져 있는 데이터를 의미한다.
데이터 종류는 데이터를 분석하고 예측 모델을 만들때 시각화, 해석, 통계 모델 결정 등에 중요한 역할을 한다.

👍 데이터의 종류를 결정하는 것은 해당 데이터를 어떻게 처리할지를 정하는 것과 같다. 👍


1-2 . 테이블 데이터 (Rectangular Data)

➔ 데이터 분석에서 가장 대표적으로 사용되는 객체의 형태는 엑셀 스프레드시트나 데이터 베이스 테이블과 같은 테이블 데이터이다. 따라서 데이터 분석에서 다루는 테이블 데이터의 용어를 공부할 필요가 있다.

용어설명
데이터 프레임(Data Frame)통계, 머신러닝에서 가장 기본형태의 데이터 구조
피쳐(Feature)일반적으로 테이블의 각 열을 Feature라고 한다.
결과(Outcome)Feature를 이용해 결과를 예측한다. 프로젝트의 목적이다.
레코드(Record)일반적으로 테이블의 각 행을 Record라고 한다.

테이블 데이터는 기본적으로 Record와 Feature로 이루어진 이차원 행렬이다. 보통의 경우 정형화 되어있지 않은 데이터를 테이블 데이터 형태로 표현되도록 처리해주어야 한다.

👍Graph의 의미 👍
통계학 : 다양한 도표와 데이터의 시각화를 의미한다.
데이터과학 : 어떠한 개체들 사이의 연결 관계를 묘사하기 위한 도구이자 일종의 데이터 구조를 의미한다.


1-3 . 위치 추정

➔ 데이터가 주어졌을 때, 데이터를 살펴보는 가장 기초적인 단계는 각 Feature의 대푯값을 구하는 것이다. 이 의미는 대부분의 값이 어디쯤에 위치하는지를 나타내는 추정값이다.

용어설명
평균(Mean)모든 값의 총합을 개수로 나눈 값
가중평균(Weighted Mean)가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값
중간값(Median)데이터의 중간에 위치한 값
가중중간값(Weighted Median)데이터를 정렬한 후 각 가중치 값을 위에서부터 더할 때, 총합의 중간에 위치하는 값
절사평균(Trimmed Mean)정해진 개수의 극단값을 제외한 나머지 값들의 평균
Robust극단값들에 민감하지 않다는 것을 의미
특잇값(Outier)대부분의 값과 매우 다른 데이터 값(극단값)

평균은 가장 흔히 접할 수 있는 데이터의 대푯값이지만 여러 이유로 평균값만을 대푯값으로 사용하는데 문제가 있어 대체할 만한 다른 값들을 개발하였다.

평균

➔ 평균은 가장 기본적인 위치 추정 방법이다. 평균은 모든 값의 총합을 값의 개수로 나눈 값이다.

velog에서 아직 수식지원을 안하는건지 내가 LaTex를 잘못쓰는건지 모르겠다..

절사평균

➔ 평균을 조금 변형한 것인데 값들을 크기 순으로 정렬한 후, 양끝에서 일정 개수의 값들을 삭제한 뒤 남은 값들을 가지고 구한 평균을 말한다.
절사평균은 극단값의 영향을 제거한다. 데이터를 정렬해놓고 극단값이 존재해 보일때 사용할 수 있을것 같다.

가중평균

➔ 각 데이터 값에 가중치를 곱한 값들의 총합을 다시 가중치의 총합으로 나눈 값을 가중평균이라 한다. 가중평균을 사용하게 된 두 가지 중요한 이유가 있다.

  • 어떤 값들이 본래 다른 값들에 비해 큰 변화량을 가질 때, 이러한 관측값에 대해 더 작은 가중치를 줄 수 있다. 예를 들어 여러 개의 센서로부터 평균을 구한다고 할 때, 한 센서의 정확도가 떨어진다면 그 센서에서 나온 데이터에는 낮은 가중치를 주는 것이 합리적이다.
  • 데이터를 수집할 때, 우리가 관심 있는 서로 다른 대조군에 대해서 항상 똑같은 수가 얻어지지는 않는다. 이럴 때, 데이터가 부족한 그룹에 대해 더 높은 가중치를 적용할 필요가 있다.

이러한 상태를 특잇값에 로버스트하다고 한다.

중간값

➔ 데이터를 일렬로 정렬했을 때, 한가운데에 위치하는 값을 중간값이라한다. 만약 데이터의 개수가 짝수라면 그 중간값은 실제 데이터 값이 아닌 가운데 있는 두 값의 평균으로 대체한다. 모든 데이터에 영향을 받는 평균보다 중간값이 많은 경우, 위치 추정에 더 유리하다.

가중 중간값

➔ 가중평균을 사용하는 이유와 마찬가지로, 가중 중간값을 사용할 수도 있다. 각 데이터 값은 이에 해당하는 가중치를 가지고 있다. 가중 중간값은 단순히 데이터의 중앙값이 아닌 어떤 위치를 기준으로 상위 절반의 가중치의 합이 하위 절반의 가중치의 합과 동일한 위치의 값이 된다. 가중 평균과 마찬가지로 특잇값에 로버스트하다.

특잇값

➔ 중간값을 결과를 왜곡할 수도 있는 특잇값(극단값)들의 영향을 받지 않으므로 로버스트한 위치 추정 방법이라고 알려져 있다. 특잇값(극단값)은 어떤 데이터 집합에서 다른 값들과 매우 멀리 떨어져 있는 값들을 말한다. 그렇다고 데이터 자체가 유효하지 않다거나 잘못된것이 아니기 때문에 특잇값(극단값)들을 확인하고 자세히 살펴볼 필요는 있다.

👍가장 기본적인 위치 추정 기법은 평균이다. 하지만 평균의 경우 특잇값에 민감할 수 있다. 따라서, 중간값, 절사평균등 다양한 평균을 대체할 수 있는 방법들이 좀더 로버스트하다. 👍


1-4 . 변이 추정

➔ 위치는 데이터의 특징을 요약하는 다양한 요소들 중 하나이다. 두 번째 요소인 변이는 데이터 값이 얼마나 밀집해 있는 혹은 퍼져 있는지를 나타내는 산포도를 나타낸다. 변이를 측정하고, 이를 줄이고, 실제 변이와 랜덤을 구분하고, 실제 변이의 다양한 요인들을 알아보고, 변이가 있는 상황에서 결정을 내리는 등, 통계의 핵심에 변이가 있다.

용어설명
편차(Deviation)관측값과 위치 추정값 사이의 차이
분산(Variance)평균과의 편차를 제곱한 값들의 합을 n-1로 나눈 값, n은 데이터 개수
표준편차(Standard Deviation)분산의 제곱근
평균절대편차(Mean absolute Deviation)평균과의 편차의 절댓값의 중간값
중간값의 중위절대편차(Median absolute deviation from the median)중간값과의 편차의 절댓값의 중간값
범위(Range)데이터의 최댓값과 최솟값의 차이
순서통계량(Order Statistics)최소에서 최대까지 정렬된 데이터 값에 따른 통계량
백분위수(Percentile)어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고 (100-P)퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 값
사분위범위(Interquartile Range)75번째 백분위수와 25번째 백분위수 사이의 차이

0개의 댓글