Adsp 3과목

이진송·2025년 5월 13일

개인 공부

데이터 마트

데이터마트(DM)

데이터 웨어하우스의 한 분야로 특정 목적을 위해 사용(소규모 데이터웨어하우스)
- 특정 목적: 판매, 고객, 재무 등 성과 분석

데이터마트에 데이터를 올리기 위해 요약변수, 파생변수를 사용함
1) 요약변수 : 수집된 정보를 종합한 변수, 재활용성 높음
2) 파생변수 : 의미를 부여한 변수, 논리적 타당성 필요

EDA(탐색적 자료 분석)

수집한 데이터가 들어왔을때, 이를 다양한 각도에서 관찰하고 이해하는 과정으로 데이터의 의미를 찾기 위해 통계, 시각화를 통해 파악
EDA의 4가지 주제
1) 저항성의 강조: 자료 변동에 민감하지 않음
2) 잔차 계산: 값들이 주 경향으로부터 얼마나 벗어나 있는지 확인하는 척도
3) 자료변수의 재표현: 원래 변수를 적당한 척도로 변환
4) 그래프를 통한 현시성: 시각화를 통하여 효율적으로 파악
저잔재현

결측값 처리

결측값: 존재하지 않는 데이터, null/NA로 표시
1) 완전분석법: 결측값 가지는 데이터 삭제
2) 평균 대치법(비조건부 평균 대치): 단순 평균으로 대치
3) 회귀 대치법(조건부 평균 대치): 회귀분석의 결과로 대치
4) 단순 확률 대치법: 확률적으로 선택하여 대치
- Nearest Neighbor: 바로 가까운 응답으로 대체
- Hot-Deck: 현재 데이터 셋에서 비슷한 성향으로 대체
- Cold-Deck: 유사한 외부 출처에서 비슷한 성향으로 대체(외부 신뢰도 필요)
5) 다중 대치법: 여러 번 대치(대치 -> 분석 -> 결합)한 값을 평균내어 사용, 결측값 하나에 여러 가지 가능한 값들을 생성해 대체하고, 분석 결과를 평균내는 고급 통계적 기법

이상값 처리

극단적으로 크거나 작은 값이며, 의미 있는 데이터 일수도 있음
이상값을 항상 제거하는 것은 아님
1) ESD(Extreme Studentized Deviation)
- 평균으로부터 표준편차의 3배 넘어가는 데이터는 이상값으로 판단(정규분포)

2) 사분위수
IQR: Q1(25%), Q3(75%) 사이의 값
Q1 - 1.5IQR보다 작거나, Q3 + 1.5IQR보다 크면 이상값으로 판단
- 1.5IQR은 고정된 값이 아니다, 데이터 분석 방향에 따라 1.0IQR도 사용
최솟값, 1~3사분위값, 최댓값 등을 표현하며, 평균값은 표현하지 않음
박스 플롯(BoxPlot): 사분위수 그래프를 시각화 한 것을 박스플롯 이라고 부른다.

3) Z-Score

데이터를 정규화(평균 0, 표준편차 1) 후, 일정 임계 값을 초과할 경우 이상값으로 판단
$z = \frac{x - \mu}{\sigma}$

ex) 평균 70점, 표준편차 10점인 시험에서 85점 받은 사람의 Z-Score는?
$z = \frac{85-70}{10} = 1.5$

4) DBScan

밀도를 이용하여 밀도가 적은 부분의 데이터를 이상값으로 판단
DBSCAN(밀도 기반 클러스터링) 참고

통계분석

통계학 개론

전수조사와 표본조사

전수조사: 전체를 모두 조사, 시간과 비용 많이 소모
표본조사: 일부만 추출하여 모집단을 분석

자료의 척도 구분

1) 질적 척도

명목척도: 대상을 구분하는데 사용, 어느 집단에 속하는지 나타내는 자료(대학교, 성별)
순서척도(서열척도): 대상을 크기나 순서에 따라 나열하는데 사용, 서열관계가 존재하는 자료(학년, 순위)

2) 양적 척도

등간척도(구간척도): 대상의 크기나 순서 간의 차이를 나타낼 때 사용, 구간 사이 간격이 의미가 있으며 덧셈 뺄셈만 가능(온도, 지수 등)
비율척도: 등간척도에서 절대적 크기를 나타낼 수 있는 척도, 절대적 기준 0이 존재하고 사칙연산 가능한 자료(무게, 나이 등)

확률적 표본 추출 방법

1) 랜덤 추출법: 무작위로 표본 추출
2) 계통 추출법: 번호를 부여하여 일정 간격으로 추출(1 -> 3 -> 5 -> 7 ...)

3) 집락 추출법(군집 추출법)

여러 군집으로 나눈 뒤 군집을 선택하여 랜덤 추출
군집 내 이질적 특징, 군집 간 동질적 특징

4) 층화 추출법

군집 내 동질적 특징, 군집 간 이질적 특징
같은 비율로 추출 시, 비례 층화 추출법

5) 복원, 비복원 추출

복원 추출: 추출되었던 데이터를 다시 포함시켜 표본 추출
비복원 추출: 추출되었던 데이터는 제외하고 표본 추출

이미지 출처

비확률적 표본 추출 방법

1) 편의 추출법: 연구자가 쉽게 접근 가능한 대상으로 표본을 추출
2) 의도적 추출법: 연구자가 특정 기준을 정하고, 이에 맞는 표본을 추출
3) 할당 추출법: 특정 기준으로 나눈 후, 그 그룹에서 할당된 수 만큼 추출
4) 눈덩이 추출법: 초기 응답자로부터 새로운 응답자를 추천 받는 방식
5) 자기선택 추출법: 응답자가 스스로 조사에 참여할지 결정

기초 통계량

1) 중심경향성 측면
- 산술평균: 일반적인 평균 개념으로, 모든 값을 더한 후 데이터 개수로 나눈 값
$평균 = \frac{85+70+60+40+90}{5} = 69$
- 기하평균: 모든 값을 곱하고, n 제곱근을 구하는 방식(비율 변화, 성장률)
$기하평균 = \sqrt[5]{85*70*60*40*90}≈\sqrt[5]{1285200000}≈65.66$
- 조화평균: 역수의 산술평균을 구한 후, 다시 역수를 취하는 방식(속도, 비율 계산)
$d = \frac{5}{\frac{1}{85} + \frac{1}{70} + \frac{1}{60} + \frac{1}{40} + \frac{1}{90}} ≈ 48.7$
- 중앙값: 데이터를 크기 순서로 나열했을 때 중간에 위치한 값
정렬한 값: 40, 60, 70, 85, 90
중앙값: 70
- 최빈값: 데이터에서 가장 자주 나타나는 값

2) 분산 정도 측면
- 분산: 각 데이터가 평균과 얼마나 떨어져 있는지 나타내는 지표
$편차^2 = (85 - 69)^2+(70 - 69)^2+(60 - 69)^2+(40 - 69)^2+(90 - 69)^2 = 1620$
$분산 = \frac{1620}{5}=324$
- 표준편차: 분산에 제곱근을 취한 값
$표준편차 = \sqrt{324} = 18$
- 사분위수(IQR): 데이터의 상위 75%와 하위 25%의 중간 범위

3) 관계 측면
공분산: 두 확률 변수의 상관정도

공분산 = 0: 상관이 전혀 없는 상태
공분산 > 0: 양의 상관관계(+∞)
공분산 < 0: 음의 상관관계(-∞)
최소, 최대값이 없어 강약 판단 불가

상관계수: 상관정도를 -1 ~ 1값으로 표현

상관계수 = 1: 정비례관계
상관계수 = 0: 상관없음
상관계수 = -1: 반비례관계

공분산과 독립성의 관계
- 두 변수가 독립이면 공분산은 0이지만, 공분산이 0이라고 두 변수가 독립이라고는 할 수 없음

첨도와 왜도

첨도: 자료의 분포가 얼마나 뾰족한 지 나타내는 척도
- 첨도 = 3: 정규 분포 형태
3을 빼서 0을 기준으로 정규분포 형태를 판단하기도 함
- 값이 클수록 뾰족한 모양

왜도: 자료 분포의 비대칭 정도(0일 때 대칭)
- 왜도 < 0: 최빈값 > 중앙값 > 평균값
- 왜도 > 0: 최빈값 < 중앙값 < 평균값

Summary 함수 결과의 해석

기초 확률 이론

확률: 통계적 현상의 확실함을 나타내는 척도로 수학적 확률과 통계적 확률로 구분
사건: 여러 반복된 시행을 통해 결과로서 나타나는 표본공간의 부분 집합
표본공간: 통계적 실험에 의하여 일어날 수 있는 모든 가능한 결과
예) 동전 두 개를 던질 때 표본공간 S={(앞, 앞), (뒤, 앞), (앞, 뒤), (뒤, 뒤),}
확률변수: 표본공간의 각 원소에 해당하는 값(확률)을 대응하는 함수
예) 확률변수 X가 어떤 집합의 키를 나타낼 때 키가 160~170확률은 P=(160<= X <= 170)
조건부 확률: 특정 사건 B가 발생했을 때 A가 발생활 확률
$P(A|B)= P(A \cap B)/P(B)$ (백신을 맞았을 때 감기에 걸릴 확률)
독립 사건: A, B가 서로 영향을 주지 않는 사건( $P(A|B)= P(A)$ )
$P(A|B)= P(A)P(B)$ (주사위 A가 3이 나왔을 때, 주사위 B가 3이 나올 확률)
배반사건: A, B가 서로 동시에 일어나지 않는 사건
$P(A \cap B) = \emptyset$ (동전을 던졌을 때 앞면과 뒷면이 동시에 나올 확률)
베이즈 정리: 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리
$P(A|B)= P(B|A)P(A)/P(B)$

확률분포

추후에 계산식 등 깊이있게 볼 것
- 확률 변수의 개별 값들이 가지는 확률 값의 분포
1 이상 확률 분포
- 값을 셀 수 있는 분포, 확률 질량 함수로 표현
1) 이산균등분포: 모든 곳에서 값이 일정한 분포
2) 베르노이 분포: 결과가 두 가지 중 한가지로 나타나는 베르누이 시행으로 나타나는 분포
3) 이항분포: N번의 베르누이 시행 중 K번 성공할 확률의 분포
4) 기하분포: 성공확률이 p인 베르누이 시행에서 처음으로 성공할 때까지 시행횟수의 분포
5) 음이항분포: 성공확률이 p인 베르누이 시행을 r번 성공할 때 까지 반복 시행횟수의 분포
6) 초기하분포: N개 중 비복원추출로 n번 추출했을 때 원하는 결과가 k번 나올 확률의 분포
7) 다항분포: N번 시행에서 각 시행이 여러 개의 결과를 가질 수 있는 확률 분포
8) 포아송분포: 단위 시간 내 발생할 수 있는 사건의 발생 횟수에 대한 분포

배포항항하

2 연속 확률분포
- 값을 셀 수 없는 분포, 확률밀도함수로 표현
1) 정규분포: 우리가 일상생활에서 흔히 보는 확률 변수의 평균 분포를 근사한 분포(Z 검정 활용)
2) t분포: 정규분포와 유사하지만, 꼬리 부분이 더 두껍고 긴 분포
3) 카이제곱분포: 독립적인 정규분포를 따르는 변수들의 제곱합으로 구성된 분포
4) F분포: 두 개의 서로 다른 카이제곱 분포의 비율

중심극한정리

임의의 모집단으로부터 추출된 표본분포는 표본크기가 충분히 크면(30개 이상) 정규분포
모집단의 분포에 상관없이 표본평균분포가 정규분포를 이룸

표본평균의 표본분포

점추정

구간추정(신뢰구간)

가설검정

모집단의 특성에 대한 주장을 가설로 세우고 표본조사로 가설의 채택여부를 판정
1) 귀무가설(H0): 일반적으로 생각하는 가설(차이가 없다.)
2) 대립가설(H1): 귀무가설을 기각하는 가설, 증명하고자 하는 가설(차이가 있다, 크다/작다)
3) 유의수준( $\alpha$ ): 귀무가설이 참일 때 기각하는 1종 오류를 범할 확률의 허용 한계(일반적으로 0.05)
4) 유의확률(p-value): 귀무가설을 지지하는 정도를 나타내는 확률