Measures of central tendency,asymmetry, and variablilty

박윤서·2024년 1월 8일
0

Statistic

목록 보기
4/11

Central Tendency Measures

Mean

평균(mean)은 데이터의 합을 개수로 나눈 값입니다. Outlier가 있을 경우, 평균은 왜곡될 수 있습니다.

Median

중앙값(median)은 데이터를 순서대로 나열했을 때 중간에 위치하는 값입니다. 데이터의 개수가 홀수일 경우 중간 값을, 짝수일 경우 중간 두 값의 평균을 사용합니다. Outlier의 영향을 덜 받습니다.

Mode

최빈값(mode)은 데이터에서 가장 많이 나타나는 값입니다. 여러 개의 최빈값이 있을 수도 있습니다.

Asymmetry Measures

Skewness

비대칭도(skewness)는 데이터가 한쪽으로 치우친 정도를 나타냅니다.
Right Skewness (Positive Skewness): 오른쪽으로 치우친 경우, mean > median.
Left Skewness (Negative Skewness): 왼쪽으로 치우친 경우, mean < median.
Zero Skewness: mean과 median이 같을 경우, 대칭적인 분포를 나타냅니다.

Variability Measures

Variance

분산(variance)은 데이터가 평균에서 얼마나 멀리 퍼져 있는지 나타냅니다. 각 데이터 값에서 평균을 빼고, 그 제곱의 평균을 구합니다. Population 분산은 N으로 나누고, Sample 분산은 N-1로 나눕니다. Sample 분산은 Population 분산에 더 근접한 값을 제공합니다.

Standard Deviation

표준편차(standard deviation)는 분산의 제곱근으로, 분산보다 이해하기 쉽고 데이터 단위와 일치합니다.

Coefficient of Variation

변동계수(coefficient of variation)는 표준편차를 평균으로 나눈 값으로, 서로 다른 데이터 집합 간 변동성을 비교할 때 유용합니다.

Covariance

공분산(covariance)은 두 변수 간의 상관 관계를 나타냅니다. 공분산이 양수이면 양의 상관관계, 음수이면 음의 상관관계, 0이면 독립적인 관계를 의미합니다. 그러나 서로 다른 스케일 때문에 해석하기 어려울 수 있습니다.

Correlation Coefficient

상관계수(correlation coefficient)는 두 변수 간의 상관 관계의 강도와 방향을 나타내는 값으로, -1에서 1 사이의 값으로 표현됩니다. 음의 값은 음의 상관관계, 양의 값은 양의 상관관계, 0은 독립적인 관계를 나타냅니다. 상관계수는 인과관계(causality)를 나타내지 않으므로 주의해서 해석해야 합니다.

profile
데이터 분석가가 되기 위해서 공부하고 있습니다.

0개의 댓글