평균(mean)은 데이터의 합을 개수로 나눈 값입니다. Outlier가 있을 경우, 평균은 왜곡될 수 있습니다.
중앙값(median)은 데이터를 순서대로 나열했을 때 중간에 위치하는 값입니다. 데이터의 개수가 홀수일 경우 중간 값을, 짝수일 경우 중간 두 값의 평균을 사용합니다. Outlier의 영향을 덜 받습니다.
최빈값(mode)은 데이터에서 가장 많이 나타나는 값입니다. 여러 개의 최빈값이 있을 수도 있습니다.
비대칭도(skewness)는 데이터가 한쪽으로 치우친 정도를 나타냅니다.
Right Skewness (Positive Skewness): 오른쪽으로 치우친 경우, mean > median.
Left Skewness (Negative Skewness): 왼쪽으로 치우친 경우, mean < median.
Zero Skewness: mean과 median이 같을 경우, 대칭적인 분포를 나타냅니다.
분산(variance)은 데이터가 평균에서 얼마나 멀리 퍼져 있는지 나타냅니다. 각 데이터 값에서 평균을 빼고, 그 제곱의 평균을 구합니다. Population 분산은 N으로 나누고, Sample 분산은 N-1로 나눕니다. Sample 분산은 Population 분산에 더 근접한 값을 제공합니다.
표준편차(standard deviation)는 분산의 제곱근으로, 분산보다 이해하기 쉽고 데이터 단위와 일치합니다.
변동계수(coefficient of variation)는 표준편차를 평균으로 나눈 값으로, 서로 다른 데이터 집합 간 변동성을 비교할 때 유용합니다.
공분산(covariance)은 두 변수 간의 상관 관계를 나타냅니다. 공분산이 양수이면 양의 상관관계, 음수이면 음의 상관관계, 0이면 독립적인 관계를 의미합니다. 그러나 서로 다른 스케일 때문에 해석하기 어려울 수 있습니다.
상관계수(correlation coefficient)는 두 변수 간의 상관 관계의 강도와 방향을 나타내는 값으로, -1에서 1 사이의 값으로 표현됩니다. 음의 값은 음의 상관관계, 양의 값은 양의 상관관계, 0은 독립적인 관계를 나타냅니다. 상관계수는 인과관계(causality)를 나타내지 않으므로 주의해서 해석해야 합니다.