수집한 데이터를 다양한 방법으로 관찰하고 이해하는 과정.
본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정
이상치 발생 원인 및 이상치의 의미를 파악하는 것이 중요하다. 그 후 이상치를 어떻게 처리할지(제거, 대체, 유지 등) 판단한다.
이상치 검출 방법
개별 데이터 관찰
통계값 활용
통계지표 이용 시 데이터의 특성에 유의해야 한다. 예를 들어 이상치가 존재하면 평균값이 크게 영향을 받지만 중앙값은 일관적으로 대표성을 가진다.
시각화 활용
머신러닝 기법 활용
두 변수간에 선형적인 관계가 있는지 분석하는 방법.
두 변수는 독립적이거나 상관되어있을 수 있으며, 이 두 변수간의 관계의 강도를 상관관계(correlation)라고 함
선형성
동변량성(등분산성, Homoscedasticity)
X의 값에 관계없이 Y의 흩어진 정도가 같은 것을 의미. (opp. 이분산성, Heteroscedasticity)
특정 구간에 상관없이 값의 퍼진 정도가 일정할 때 동변량성을 띤다고 얘기하며, 반대로 퍼진 정도가 일정하지 않으면 이분산성을 띤다고 말한다.
두 변인의 정규분포성
무선독립표본
피어슨 상관계수(Pearson Correlation Coefficient or Pearson's r)
스피어만 상관계수(Spearman Correlation Coefficient)
기초통계, 혹은 기술통계란 자료를 수집한 후 자료의 특성을 정량적인 수치로 요약, 정리하는 방법이다.
중심화 경향(Central Tendency), 퍼짐 정도(산포도, 분산도), 자료의 분포형태(Shape of Distribution) 등의 방법이 있다.
자료의 일반적인 평균 값을 의미한다.
모평균 (Population Mean): 모집단 전체의 산술평균
표본평균 (Sample Mean): 모집단에서 추출된 표본 전체의 산술평균
산술평균이 합의 평균이라면, 기하평균은 곱의 평균이다.
n개의 관측치를 곱한 후 n 제곱근을 취한 값
각 값의 역수들의 산술평균을 구한 후 다시 역수를 취한 값
중앙값은 자료를 크기순으로 나열할 때 가운데에 위치한 값이다.
가장 출현 빈도가 높은 값을 최빈값이라고 한다. 질적자료, 양적자료 모두에 사용된다.
분위수는 데이터를 크기순으로 배열한 후 그 자료를 분할하는 특정 위치를 나타내는 값이다.
자료의 퍼짐 정도를 나타내는 기초 통계량이다.
분산: 평균을 중심으로 퍼진 정도를 나타내는 척도
표준편차: 분산의 제곱근
분산은 개별 자료값과 평균과의 편차의 제곱을 이용하여 계산되므로 분산으로 얻은 수치를 해석하기 어려울 때 표준편차를 이용한다.
표본분산, 표본표준편차
분산의 특성
데이터의 최댓값과 최솟값의 차이를 범위라고 한다. 동일한 범위를 갖는 데이터라도 분포모양은 다를 수 있다.
각 관측값과 평균값의 차이에 절대값을 취한 후 그 값들을 모두 더해 전체 데이터 개수로 나눈 값이다.
다시 말해 각 자료값과 표본평균과의 편차의 절대값에 대한 산술평균을 의미한다.
자료를 크기순으로 배열한 후 자료의 1/4에 해당하는 1사분위수(Q1)를 구하고, 3/4에 해당하는 3사분위수(Q3)를 구한다.
사분위범위(IQR)는 Q3에서 Q1을 뺀 값으로 정의되며, 자료의 50% 범위 내에 위치함을 의미한다.
주로 이상치 판단 시에 사용되며, 아래와 같이 정상범위 데이터의 최소/최대값을 정의하여 해당 범위를 벗어나는 값을 이상치로 간주할 수 있다.
정상범위 데이터 최대값 = 3사분위수(75% percentile) + 1.5 x IQR 정상범위 데이터 최소값 = 1사분위수(25% percentile) - 1.5 x IQR예) 8, 10, 12, 13, 15, 17, 17, 18, 19, 23, 24 자료의 사분위범위는?
총 11개의 크기순으로 나열된 숫자 중 1사분위수(Q1)과 3사분위수(Q3)에 해당하는 숫자는 다음과 같이 구할 수 있다.
(11 + 1) x (1/4) = 3, (11 + 1) x (3/4) = 9 이므로 3번째, 9번째 숫자에 해당하는 12, 19가 각각 Q1, Q3이 된다.
따라서 위 자료의 사분위범위는 19 - 12 = 7이다.
평균을 중심으로 한 상대적인 산포의 정도를 나타내는 수치이다.
측정 단위가 동일하지만 평균이 큰 차이를 보이는 두 자료집단, 혹은 측정단위가 서로 다른 두 자료집단에 대한 산포의 정도를 비교할 때 많이 사용한다.
(ex. 신생아의 몸무게와 산모의 몸무게: 단위는 동일하지만 평균이 크게 다르므로 변동계수를 이용해 분산을 비교한다)
예) 100명의 여성에 대한 신장과 체중을 비교한 자료가 있을 때, 체중의 개인차와 신장의 개인차를 비교하려면?
체중 - 평균 52.3kg, 표준편차 2.54kg
신장 - 152.7cm, 표준편차 2.28cm각각의 CV를 구해보면 2.54 / 52.3 x 100 = 4.857%, 2.28 / 152.7 x 100 = 1.493%로, 체중의 CV값이 더 크다.
즉 체중 데이터가 더 넓게 분포한다는 의미이므로 체중의 개인차가 신장의 개인차가 더 크다.
분포의 치우친 정도를 나타내는 통계적 척도이다.
데이터가 오른쪽으로 더 꼬리가 길면 양의 값, 왼쪽으로 더 길면 음의 값이 된다. 분포가 좌우대칭이면 0이다.
왜도(Skewness) 값 | 데이터 분포 모양 | 성질 |
---|---|---|
음수(negative) | 왼쪽으로 긴 꼬리 | 평균 < 중앙값 < 최빈값 |
0 | 좌우 대칭 | 평균 = 중앙값 = 최빈값 |
양수(positive) | 오른쪽으로 긴 꼬리 | 평균 > 중앙값 > 최빈값 |
피어슨의 비대칭계수(Pearson's skewness coefficients)
피어슨의 비대칭 계수는 왜도와 비슷하게 분포가 좌우로 얼마나 대칭적인지를 나타내는 통계값이다.
피어슨 비대칭계수는 일반적으로 로 계산할 수 있다.
예) 평균이 50, 중앙값이 30, 표준편차가 5인 분포의 왜도와 특징은?
평균이 중앙값보다 크면 오른쪽에 데이터가 많이 분포한다는 것을 의미하고, 즉 왼쪽으로 치우친, 오른쪽으로 꼬리가 긴 분포에 해당한다.
피어슨 비대칭계수는 3 x (50 - 30) / 5 = 12 이다.
분포의 뾰족한(peakedness) 정도를 나타내는 통계적 척도이다.