[통계학 기초] 1강. 데이터 분석과 통계

Hyunjun Kim·2024년 11월 11일

통계학기초

목록 보기

2/24

1. 데이터 분석과 통계

데이터 분석에 있어서 통계가 왜 중요한지를 배웁니다
기술통계와 추론통계에 대한 개념을 이해하고 각각의 차이점을 설명할 수 있습니다
통계분석 방법의 다양한 종류에 대해서 배웁니다

1.1. 데이터 분석에 있어서 통계가 중요한 이유

데이터 기반의 의사결정을 내릴 수 있음!

통계가 중요한 이유

데이터를 분석하고 이를 바탕으로 결정을 내릴 수 있습니다!

데이터 분석에서 통계는 데이터를 이해하고 해석하는 데 중요한 역할을 합니다
데이터를 요약하고 패턴을 발견할 수 있습니다
추론을 통해 결론을 도출화는 과정을 돕습니다
즉, 데이터 기반의 의사결정을 내릴 수 있습니다
결국 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요합니다

통계를 활용한 데이터 분석은 필수!

실제로 통계가 어떻게 사용되어 질까요?

고객 만족도 설문조사 분석

설문 조사 중 고객의 불만 사항을 파악하고 이를 개선하는 데 활용할 수 있습니다.

고객 유형별 세그먼트(Segment) 상품 추천

고객을 유형별로 나누어 특징을 파악하고 각 유형에 맞는 상품을 추천하는데 활용될 수 있습니다.

그 밖에도 다양한 상황에서 사용되어질 수 있습니다

기업의 전략을 수립하기 위해서
마케팅을 진행하기 위해서
신제품을 개발하기 위해서 등등

1.2. 기술통계와 추론통계

기술통계

데이터를 요약하고 설명하는 통계 방법

주로 평균, 중앙값, 분산, 표준편차 등을 사용합니다.
즉, 데이터를 특정 대표값으로 요약
데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음
단, 데이터 중 예외(이상치)라는게 항상 존재할 수 있고 데이터의 모든 부분을 확인할 수 있는 것은 아님

사람을 처음 만날 때 그 사람의 전체에 대해서 다 알 수는 없지만 기본적인 인적사항들(외모, 직업, 학력, 나이, MBTI 등)로 대략적으로 그 사람에 대한 요약을 할 수 있는 것과 같음 → 하지만 여러분들도 알다시피 대략적으로 파악할 수는 있지만 그 사람에 대한 전부를 확인한 것은 아니며 예외가 항상 존재할 수 있음

분산(Variance)이란?

분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도로, 데이터의 흩어짐 정도를 측정합니다.
분산이 크면 데이터가 넓게 퍼져 있고, 작으면 데이터가 평균에 가깝게 모여 있음을 의미합니다.
분산을 구하는 방법은 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누는 것입니다.

분산 계산 예시
예를 들어, 네 명의 학생이 받은 시험 점수가 70, 80, 90, 100이라고 가정합시다. 이들의 평균은 (70 + 80 + 90 + 100) / 4 = 85입니다.
각각의 데이터 값에서 평균을 뺀 값을 제곱하면 다음과 같습니다:

(70 - 85)^2 = 225

(80 - 85)^2 = 25

(90 - 85)^2 = 25

(100 - 85)^2 = 225

이 값을 모두 더한 후 데이터의 개수로 나누면,
분산 = (225 + 25 + 25 + 225) / 4 = 125가 됩니다.

표준편차(Standard Deviation)?

표준편차는 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도로, 분산의 제곱근을 취하여 계산합니다.
표준편차는 데이터의 변동성을 측정하며, 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져 있음을 의미합니다.

표준편차 계산 예시
네 명의 학생이 받은 시험 점수가 70, 80, 90, 100이라고 가정합니다. 이들의 평균은 85입니다.

(70 - 85)^2 = 225

(80 - 85)^2 = 25

(90 - 85)^2 = 25

(100 - 85)^2 = 225

(여기까지는 분산 계산과 동일함)
분산은 (225 + 25 + 25 + 225) / 4 = 125입니다. 표준편차는 분산의 제곱근이므로 분산에 루트(root)를 씌워 약 11.18입니다.

표준편차와 분산의 관계

분산과 표준편차는 동일하게 데이터의 변동성을 측정하는 두 가지 주요 척도입니다.
두 개념은 밀접하게 연관되어 있으며, 표준편차는 분산의 제곱근입니다.
분산은 데이터 값과 평균의 차이를 제곱하여 평균을 낸 값이기 때문에 제곱 단위로 표현되지만, 표준편차는 다시 제곱근을 취하여 원래 데이터 값과 동일한 단위로 변환합니다.

추론통계

표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법.

주로 신뢰구간, 가설검정 등을 사용합니다.
즉, 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심

ex) 비록 그 사람의 인생 전체를 다 본 것은 아니지만 대화를 진행하는 시간 동안 얻어낸 정보로 그 사람이 어떤 사람일지 알아가는 것과 같음

신뢰구간 (Confidence Interval)

신뢰구간은 모집단의 평균이 특정 범위 내에 있을 것이라는 확률을 나타냅니다.
일반적으로 95% 신뢰구간이 사용되며, 이는 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미합니다.
만약 어떤 설문조사에서 평균 만족도가 75점이고, 신뢰구간이 70점에서 80점이라면, 우리는 95% 확률로 실제 평균 만족도가 이 범위 내에 있다고 말할 수 있습니다.

가설검정 (Hypothesis Testing)

가설검정은 모집단에 대한 가설을 검증하기 위해 사용됩니다. 일반적으로 두 가지 가설이 있으며, 귀무가설(H0)은 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설(변화가 없다, 효과가 없다 등)이고, 대립가설(H1)은 그 반대 가설로 주장하는 바를 나타냅니다(변화가 있다, 효과가 있다 등)입니다. p-value를 통해 귀무가설을 기각할지 여부를 결정합니다.
예를 들어, 새로운 교육 프로그램이 학생들의 성적에 영향을 미치는지 알고 싶다면, 귀무가설은 "프로그램이 성적에 영향을 미치지 않는다"이고, 대립가설은 "프로그램이 성적에 영향을 미친다"입니다.

실제로 기술통계와 추론통계가 어떻게 사용되어 질까요?

기술통계
회사의 매출 데이터를 요약하기 위해 평균 매출, 매출의 표준편차 등을 계산
추론통계
일부 고객의 설문조사를 통해 전체 고객의 만족도를 추정

1.3. 다양한 분석 방법

위치추정

데이터의 중심을 확인하는 방법!

평균, 중앙값이 대표적인 위치 추정 방법입니다
ex) 학생들의 시험 점수에서 평균 점수, 중간 점수를 계산

변이추정

데이터들이 서로 얼마나 다른지 확인하는 방법!

분산, 표준편차, 범위(range) 등을 사용합니다

범위란?

범위는 데이터셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 간단한 분포의 측도입니다.
범위를 통해 데이터가 어느 정도의 변동성을 가지는지 쉽게 파악할 수 있습니다.
범위는 계산이 간단하여 기본적인 데이터 분석에서 자주 사용됩니다.

수식

범위(R) = 최대값 - 최소값

범위 계산 예시

예를 들어, 다섯 명의 학생이 받은 시험 점수가 60, 70, 80, 90, 100이라고 가정합시다.

최대값은 100

최소값은 60.
따라서 범위는 100 - 60 = 40입니다.

ex) 매출 데이터의 변이를 분석하여 비즈니스의 안정성을 평가

데이터 분포 탐색

데이터의 값들이 어떻게 이루어져 있는지 확인하기

히스토그램과 상자 그림(Box plot)은 데이터의 분포를 시각적으로 표현하는 대표적인 방법입니다.
ex) 시험 점수의 분포를 히스토그램과 상자 그림으로 표현

이진 데이터와 범주 데이터 탐색

데이터들이 서로 얼마나 다른지 확인하는 방법!

최빈값(개수가 제일 많은 값)을 주로 사용합니다
파이그림과 막대 그래프는 이진 데이터와 범주 데이터의 분포를 표현하는 대표적 방법입니다.
ex) 고객 만족도 설문에서 만족/불만족의 빈도 분석

상관관계

데이터들끼리 서로 관련이 있는지 확인하는 방법!

상관계수는 두 변수 간의 관계를 측정하는 방법입니다.
상관계수를 계산해서 -1이나 1에 가까워지면 강력한 상관관계를 가집니다.
-0.5나 0.5를 가지면 중간정도의 상관관계를 가집니다.
0에 가까울 수록 상관관계가 없습니다.
ex) 공부 시간과 시험 점수 간의 상관관계를 분석

여기서 잠깐! 인과관계와 상관관계의 차이

인과관계는 상관관계와는 다르게 원인, 결과가 분명해야 함!

상관관계는 두 변수 간의 관계를 나타내며, 인과관계는 한 변수가 다른 변수에 미치는 영향을 나타낸다.

ex) 아이스크림 판매량과 익사 사고 수 간의 상관관계는 높지만, 인과관계는 아님.

두 개 이상의 변수 탐색

여러 데이터들끼리 서로 관련이 있는지 확인

다변량 분석은 여러 변수 간의 관계를 분석하는 방법입니다.
ex) 여러 마케팅 채널의 광고비와 매출 간의 관계 분석

1.4. 연습문제

1번

데이터 분석에서 통계가 중요한 이유는 무엇인가요? 다음 보기 중에서 옳지 않은 것을 고르세요
1) 통계는 데이터를 이해하고 해석하는 데 도움을 준다.
2) 통계는 데이터에서 패턴을 발견하고 미래를 예측하는 도구를 제공한다.
3) 통계는 모든 데이터 분석 결과가 항상 정확하고 확실하다는 것을 보장한다.
4) 통계는 복잡한 데이터를 간단한 요약 정보로 변환할 수 있다.

통계는 확률과 추론에 기초하기 때문에 항상 불확실성이 존재합니다.

2번

다음 중 기술통계(Descriptive Statistics)에 해당하는 것은 무엇인가요?
1) 모집단의 평균을 추정하는 것
2) 데이터의 중앙값을 계산하는 것
3) 표본을 통해 모집단의 특성을 추론하는 것
4) 가설을 검증하는 것

기술통계는 데이터를 요약하고 설명하는 데 중점을 둡니다. 반면, 추론통계는 표본 데이터를 사용하여 모집단에 대한 결론을 내리는 과정입니다.

3번

다음 중 추론통계(Inferential Statistics)에 해당하는 것은 무엇인가요?
1) 데이터의 범위를 계산하는 것
2) 데이터의 분산을 계산하는 것
3) 표본을 기반으로 모집단의 평균을 추정하는 것
4) 데이터의 최빈값을 계산하는 것

추론통계는 표본 데이터를 사용하여 모집단에 대한 결론을 도출하는 과정입니다.

4번

어느 학교의 학생들 10명의 수학 점수는 다음과 같습니다: 78, 82, 85, 88, 90, 92, 94, 96, 98, 100. 이 데이터의 평균을 구하세요.

평균은 90.3

5번

4번 문제의 학생 수학 점수의 중앙값을 구하세요.

91.0

6번

4번 문제의 학생 수학 점수 데이터의 범위(Range)를 구하세요.

범위는 데이터의 최대값에서 최소값을 뺀 값입니다.
100 - 78 = 22

7번

학생들의 수학 점수와 영어 점수가 각각 다음과 같을 때, 두 변수 간의 상관관계가 양의 상관관계인지, 음의 상관관계인지, 상관관계가 없는지 설명하고 그 이유를 얘기하세요.
1. 수학 점수: 78, 82, 85, 88, 90, 92, 94, 96, 98, 100.
2. 영어 점수: 70, 75, 80, 85, 85, 90, 90, 95, 95, 100.

정답

양의 상관관계를 가짐.

수학 점수가 증가할 때 영어 점수도 증가하는 경향이 있.

8번

다음 중 인과관계(Causation)와 상관관계(Correlation)의 차이에 대한 설명으로 옳은 것은 무엇인가요

1) 상관관계는 두 변수 간의 원인과 결과를 나타내고, 인과관계는 단순한 관계를 나타낸다.
2) 인과관계는 두 변수 간의 원인과 결과를 나타내고, 상관관계는 두 변수 간의 관계가 있지만 원인과 결과를 나타내지 않는다.
3) 상관관계와 인과관계는 동일한 개념이다.
4) 인과관계는 두 변수 간의 단순한 관계를 나타내고, 상관관계는 두 변수 간의 원인과 결과를 나타낸다.

정답 및 해설
2) 인과관계는 두 변수 간의 원인과 결과를 나타내고, 상관관계는 두 변수 간의 관계가 있지만 원인과 결과를 나타내지 않는다.

인과관계는 하나의 변수가 다른 변수에 직접적인 영향을 미치는 것을 의미하며, 상관관계는 두 변수 간의 관계를 나타내지만, 직접적인 영향을 의미하지는 않습니다.

Hyunjun Kim

Data Analytics Engineer 가 되

이전 포스트

[통계학 기초] 학습 계획

다음 포스트

[통계학 기초] 1강. 데이터 분석과 통계