TIL - 250515

AnalytiCode·2025년 5월 15일

ADSP

3과목

결측값과 이상값 검색

EDA(탐색적 자료 분석)

4가지 주제: 저잔재현

저항성의 강조
잔차 계산 : 값들이 주경향으로부터 얼마나 벗어나 있는지 확인하는 척도
자료변수의 재표현: 변수를 척도로 변환
그래프를 통한 현시성: 시각화를 통하여 효율적으로 파악

결측값 처리

완전분석법: 결측치 삭제
평균 대치법
회귀 대치법
확률 대치법

nearest neighbor
hot-deck
cold-deck

이상값 처리

사분위수
박스플롯 : 평균이 아니라 50%를 표시
Z-SCORE 데이터를 정규화(평균0, 표준편차1), 임계 값을 초과할 경우 이상값으로 판단

통계분석

통계학 개론

확률적 표본 추출 방법

랜덤
계통추출법: 번호부여, 일정간격
집락 추출법(군집 추출법)
군집 내 이질적(호), 군집간 동질적(동)
층화 추출법
군집 내 동질적(1학년), 군집간 이질적(1,2,3학년)
복원/비복원

기초 통계량
관계측면

공분산: 두 확률변수의 상관정도. 0이면 상관이 없다.
최소, 최대값이 없어 강약 판단 불가
공분산: 두 변수의 방향성 친밀도, 두 변수가 어떻게 함께 변하는지 수치로 나타냄
양수면 같은방향(x증가 -> y증가), 음수면 반대방향(반비례관계), 0이면 선형상관x(비선형은 있을 수 있다)

상관계수
공분산과 독립성과의 관계: 독립 -> 공분산 0, 공분산 0이라고 독립 x

기초 확률 이론

조건부 확률: 특정사건 b가 발생했을 때 a가 발생할 확률
독립사건: a,b가 서로 영향을 주지 않는 사건
배반사건: a와 b가 서로 동시에 일어나지 않는 사건
베이즈 정리: 두 확률 변수의 사전 확률과 사후 확률사이의 관계를 나타내는 정리

확률분포

이산확률: 값을 셀 수 있음. 확률질량함수
베포항항하
연속확률: 값을 셀 수 없음, 밀도
-정규분포
-t분포: 꼬리부분이 더 두껍고 김. (표본이 30개보다 작다)
-카이제곱 분포 : 동질성검정/모분산검정, 비모수검정(모집단 정보 x, 관측값의 순위나 차이)
-f분포: 분산동질성 검정

점추정
모집단이 특정한 값으로 추정됨, 추정량으로 모수 추정
추정량의 조건 : 불효일충
가설검정
1종오류: 귀무가설이 참인데 기각.

기초통계분석

회귀분석

잔차: 계산값과 예측값의 차이
적합성: 선형성 / 등분산성 -> 잔차가 무작위로 흩어져야 함
(1) 잔차가 특정 방향으로 치우침
→ 편향(bias)이 있다는 뜻. 즉, 예측이 체계적으로 과대 또는 과소 추정되고 있다는 뜻.

(2) 잔차가 곡선 형태로 분포
→ 선형 모델이 비선형 관계를 놓치고 있음을 의미. 즉, 선형 회귀가 부적절하다는 신호.

(3) 잔차가 무작위로 흩어짐
잔차는 패턴 없이, 일정한 분포 없이 흩어져야 모델이 타당합니다.
= 오차가 독립이고 등분산이라는 가정을 만족.

(4) 잔차가 X축에 평행한 직선
잔차가 직선이면 패턴이 있다는 말 = 문제 있다는 뜻.
특히 하나의 직선 위에 있다는 건, 잔차가 모두 일정하거나 일정한 패턴을 따른다는 것 → 큰 문제

회귀모형 평가
SSE : 잔차의 제곱합, 모형에 의해 설명되지 않는 변동, 회귀선과 관측값의 차이.
회귀분석 종류

릿지회귀: L2, 유클리디안거리기반, 변수 계수를 작게만듬(0에 가깝게)
라쏘회귀: L1, 맨하탄거리 기반, 일부 계수를 완전히 0 -> 변수선택
교호항회귀: 독립변수들의 교호작용(두 개 이상의 독립변수가 상호작용)이 포함된 회귀모형

분산분석(ANOVA)
3개 이상의 그룹의 평균을 비교하는 검정 (회귀모형의 유의성 분석)
회귀, 잔차, 총
회귀 모형의 검정
귀무가설: 모든 회귀계수는 0이다
설명력: 결정계수(R sqare)

시계열 예측

정상성

시계열 예측을 위해서는 모든시점에 일정한 평균과 분산을 가지는 정상성을 만족해야한다.

차분 : 현 - 이전
이동 평균법: 일정기간의 평균
지수평활법: 최근 시간 데이터에 가중치
지수변환, 로그변환, Box-Cox 변환

시계열 모형

분해시계열

시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
추운 계졀의 순환이 불규칙하다

추세 요인
계절 요인
순환 요인 : 알려지지 않은 주기를 갖고 변화 ( 경제전반, 특정산업)
불규칙 요인: 3가지 요인으로 설명 불가

오답

시계열 자료의 분산이 일정하지 않은경우 변환을 통해 분산 일정하게 만들기
정상성을 만족하기 위한 조건 중 하나, 공분산은 시차에는 의존하지만 시점에 의존해서는 안된다
일정시간 간격으로 기록된 자료들로부터 특성을 파악하고 미래 예측
차분은 현재시점 - 바로 직전 시점

다변량분석

상관분석

두 변수간의 선형적 관계가 존재하는지 파악하는 분석

피어슨: 연속형변수, -1~1, 선형.
스피어만: 연속형 + 순위(서열)형, -1~1 비선형

연관분석

항목들간의 조건-결과로 이루어지는 패턴 발견 기법(장바구니 분석)

특징
결과 단순, 분명(if, then), 비목적성 분석기법.
품목 수가 많아지면 계산량이 기하급수적으로 증가한다.
apriori 알고리즘: 최소 지지도 활용, 연관분석

순차패턴
연관분석에 시간 개념을 추가하여 품목과 시간에 대한 규칙 찾음

연관분석의 지표

지신향

지지도: 전체중에 교집합 -> 동시에 포함된 거래비율
신뢰도: a거래시 b도 거래될 확률 (조건부)
향상도: a와 b의 상관성, 1보다 크면 양의상관, 1이면 상관없음, 1보다 작으면 음의상관

군집분석

비지도학습. 거리나 유사성을 기준으로 군집나눔

거리측도

연속형 변수

유클리드거리
맨하튼거리 : 차이의 단순 합, 절댓값계산.
체비셰프 거리: 변수 거리 차 중 최댓값
표준화거리 : 유클리드 / 표준편차
민코우스키 거리: 유클리드, 맨하튼을 일반화
마할라노비스 거리: 표준화 거리에서 변수의 상관성 고려.

범주형 변수

자카드 유사도(합집합과 교집합의 비율)
코사인 유사도(코사인 각도)

비계층적 군집화

K평균 군집화(K-Means Clustering)
이상치 주의, 거리기반, k개수 설정
중심점이 변경되면 군집이 변화함
엘보우 메서드 사용 -> 평균으로 중심정 재설정.(PAM)
DBSCAN
밀도기반, k지정 x
퍼지군집화 : 확률기준
E(기대)M(추정) 알고리즘 : 분포기반
자기조직화지도(SOM)
신경망을 활용하여 차원축소로 지도로 형상화, 완전연결, 순전파

실루엣계수

군집분석 평가지표
같은 군집간 가깝고, 다른 군집간 먼 정도를 판단(-1~1)

주성분 분석(PCA)

상관성 높은 변수들의 선형결합으로 차원을 축소하여 새로운 변수를 생성.
자료의 분산이 가장 큰 축이 첫번째 주성분(고유값)

38,45

정형 데이터 마이닝

데이터 마이닝 개요

분류분석

로지스틱

종속변수가 범주형 변수를 대상으로 성공/실패 2개의 집단을 분류하는 문제에 활용.

오즈: 성공/실패
오즈가 1보다 크면 성공이 크다 = 설명변수가 결과 발생 가능성을 높인다.
로짓 : 오즈에 로그 취한거 -> 선형관계 됨
시그모이드 함수: 로짓의 역함수(e), 0~1 사이 확률 나타냄.
KNN
거리기반, 훈련필요 x
나이브베이즈 분류

베이즈정리
나이브 베이즈 분류

의사결정나무

노드 내 동질성이 커지고, 노드간 이질성이 커지는 방향

분할방법

분류(범주형)
회귀(연속형)

앙상블

보팅
배깅: 부트스트랩 생성
부스팅: 잘못된 데이터에 큰 가중치, 이상치 민감
스태킹: 모델이 학습한 예측결과를 다시 학습
랜덤포레스트: 배깅 + 의사결정트리

인공신경망

활성함수 vs 손실함수

은닉층에서의 활성함수
인공신경망의 선형성 극복
-시그모이드: 로지스틱 회귀분석과 유사
-탄젠트: 시그모이드의 기울기 소실 지연
출력층에서 활성함수
-시그모이드: 이진분류
-소프트맥스: 다중분류모델
손실함수: 예측값과 실제값의 차이 측정
-mse:회귀모델
-크로스핏 엔트로피: 분류모델

AnalytiCode

이전 포스트

TIL - 250514

다음 포스트