ADSP
3과목
결측값과 이상값 검색
EDA(탐색적 자료 분석)
4가지 주제: 저잔재현
- 저항성의 강조
- 잔차 계산 : 값들이 주경향으로부터 얼마나 벗어나 있는지 확인하는 척도
- 자료변수의 재표현: 변수를 척도로 변환
- 그래프를 통한 현시성: 시각화를 통하여 효율적으로 파악
결측값 처리
- 완전분석법: 결측치 삭제
- 평균 대치법
- 회귀 대치법
- 확률 대치법
- nearest neighbor
- hot-deck
- cold-deck
이상값 처리
-
사분위수
박스플롯 : 평균이 아니라 50%를 표시
-
Z-SCORE 데이터를 정규화(평균0, 표준편차1), 임계 값을 초과할 경우 이상값으로 판단
통계분석
통계학 개론
- 랜덤
- 계통추출법: 번호부여, 일정간격
- 집락 추출법(군집 추출법)
군집 내 이질적(호), 군집간 동질적(동)
- 층화 추출법
군집 내 동질적(1학년), 군집간 이질적(1,2,3학년)
- 복원/비복원
- 공분산: 두 확률변수의 상관정도. 0이면 상관이 없다.
최소, 최대값이 없어 강약 판단 불가
공분산: 두 변수의 방향성 친밀도, 두 변수가 어떻게 함께 변하는지 수치로 나타냄
양수면 같은방향(x증가 -> y증가), 음수면 반대방향(반비례관계), 0이면 선형상관x(비선형은 있을 수 있다)
- 상관계수
- 공분산과 독립성과의 관계: 독립 -> 공분산 0, 공분산 0이라고 독립 x
- 조건부 확률: 특정사건 b가 발생했을 때 a가 발생할 확률
- 독립사건: a,b가 서로 영향을 주지 않는 사건
- 배반사건: a와 b가 서로 동시에 일어나지 않는 사건
- 베이즈 정리: 두 확률 변수의 사전 확률과 사후 확률사이의 관계를 나타내는 정리
- 이산확률: 값을 셀 수 있음. 확률질량함수
베포항항하
- 연속확률: 값을 셀 수 없음, 밀도
-정규분포
-t분포: 꼬리부분이 더 두껍고 김. (표본이 30개보다 작다)
-카이제곱 분포 : 동질성검정/모분산검정, 비모수검정(모집단 정보 x, 관측값의 순위나 차이)
-f분포: 분산동질성 검정
기초통계분석
회귀분석
- 잔차: 계산값과 예측값의 차이
- 적합성: 선형성 / 등분산성 -> 잔차가 무작위로 흩어져야 함
(1) 잔차가 특정 방향으로 치우침
→ 편향(bias)이 있다는 뜻. 즉, 예측이 체계적으로 과대 또는 과소 추정되고 있다는 뜻.
(2) 잔차가 곡선 형태로 분포
→ 선형 모델이 비선형 관계를 놓치고 있음을 의미. 즉, 선형 회귀가 부적절하다는 신호.
(3) 잔차가 무작위로 흩어짐
잔차는 패턴 없이, 일정한 분포 없이 흩어져야 모델이 타당합니다.
= 오차가 독립이고 등분산이라는 가정을 만족.
(4) 잔차가 X축에 평행한 직선
잔차가 직선이면 패턴이 있다는 말 = 문제 있다는 뜻.
특히 하나의 직선 위에 있다는 건, 잔차가 모두 일정하거나 일정한 패턴을 따른다는 것 → 큰 문제
- 릿지회귀: L2, 유클리디안거리기반, 변수 계수를 작게만듬(0에 가깝게)
- 라쏘회귀: L1, 맨하탄거리 기반, 일부 계수를 완전히 0 -> 변수선택
- 교호항회귀: 독립변수들의 교호작용(두 개 이상의 독립변수가 상호작용)이 포함된 회귀모형
-
분산분석(ANOVA)
3개 이상의 그룹의 평균을 비교하는 검정 (회귀모형의 유의성 분석)
회귀, 잔차, 총
-
회귀 모형의 검정
귀무가설: 모든 회귀계수는 0이다
설명력: 결정계수(R sqare)
시계열 예측
정상성
시계열 예측을 위해서는 모든시점에 일정한 평균과 분산을 가지는 정상성을 만족해야한다.
- 차분 : 현 - 이전
- 이동 평균법: 일정기간의 평균
- 지수평활법: 최근 시간 데이터에 가중치
- 지수변환, 로그변환, Box-Cox 변환
시계열 모형
분해시계열
시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
추운 계졀의 순환이 불규칙하다
- 추세 요인
- 계절 요인
- 순환 요인 : 알려지지 않은 주기를 갖고 변화 ( 경제전반, 특정산업)
- 불규칙 요인: 3가지 요인으로 설명 불가
오답
- 시계열 자료의 분산이 일정하지 않은경우 변환을 통해 분산 일정하게 만들기
- 정상성을 만족하기 위한 조건 중 하나, 공분산은 시차에는 의존하지만 시점에 의존해서는 안된다
- 일정시간 간격으로 기록된 자료들로부터 특성을 파악하고 미래 예측
- 차분은 현재시점 - 바로 직전 시점
다변량분석
상관분석
두 변수간의 선형적 관계가 존재하는지 파악하는 분석
- 피어슨: 연속형변수, -1~1, 선형.
- 스피어만: 연속형 + 순위(서열)형, -1~1 비선형
연관분석
항목들간의 조건-결과로 이루어지는 패턴 발견 기법(장바구니 분석)
- 특징
결과 단순, 분명(if, then), 비목적성 분석기법.
품목 수가 많아지면 계산량이 기하급수적으로 증가한다.
apriori 알고리즘: 최소 지지도 활용, 연관분석
- 순차패턴
연관분석에 시간 개념을 추가하여 품목과 시간에 대한 규칙 찾음
연관분석의 지표
지신향
- 지지도: 전체중에 교집합 -> 동시에 포함된 거래비율
- 신뢰도: a거래시 b도 거래될 확률 (조건부)
- 향상도: a와 b의 상관성, 1보다 크면 양의상관, 1이면 상관없음, 1보다 작으면 음의상관
군집분석
비지도학습. 거리나 유사성을 기준으로 군집나눔
거리측도
- 유클리드거리
- 맨하튼거리 : 차이의 단순 합, 절댓값계산.
- 체비셰프 거리: 변수 거리 차 중 최댓값
- 표준화거리 : 유클리드 / 표준편차
- 민코우스키 거리: 유클리드, 맨하튼을 일반화
- 마할라노비스 거리: 표준화 거리에서 변수의 상관성 고려.
- 자카드 유사도(합집합과 교집합의 비율)
- 코사인 유사도(코사인 각도)
비계층적 군집화
-
K평균 군집화(K-Means Clustering)
이상치 주의, 거리기반, k개수 설정
중심점이 변경되면 군집이 변화함
엘보우 메서드 사용 -> 평균으로 중심정 재설정.(PAM)
-
DBSCAN
밀도기반, k지정 x
-
퍼지군집화 : 확률기준
-
E(기대)M(추정) 알고리즘 : 분포기반
-
자기조직화지도(SOM)
신경망을 활용하여 차원축소로 지도로 형상화, 완전연결, 순전파
실루엣계수
군집분석 평가지표
같은 군집간 가깝고, 다른 군집간 먼 정도를 판단(-1~1)
주성분 분석(PCA)
상관성 높은 변수들의 선형결합으로 차원을 축소하여 새로운 변수를 생성.
자료의 분산이 가장 큰 축이 첫번째 주성분(고유값)
38,45
정형 데이터 마이닝
데이터 마이닝 개요
분류분석
로지스틱
종속변수가 범주형 변수를 대상으로 성공/실패 2개의 집단을 분류하는 문제에 활용.
-
오즈: 성공/실패
오즈가 1보다 크면 성공이 크다 = 설명변수가 결과 발생 가능성을 높인다.
-
로짓 : 오즈에 로그 취한거 -> 선형관계 됨
-
시그모이드 함수: 로짓의 역함수(e), 0~1 사이 확률 나타냄.
-
KNN
거리기반, 훈련필요 x
-
나이브베이즈 분류
- 베이즈정리
- 나이브 베이즈 분류
의사결정나무
노드 내 동질성이 커지고, 노드간 이질성이 커지는 방향
-
분류(범주형)
-
회귀(연속형)
앙상블
- 보팅
- 배깅: 부트스트랩 생성
- 부스팅: 잘못된 데이터에 큰 가중치, 이상치 민감
- 스태킹: 모델이 학습한 예측결과를 다시 학습
- 랜덤포레스트: 배깅 + 의사결정트리
인공신경망
-
은닉층에서의 활성함수
인공신경망의 선형성 극복
-시그모이드: 로지스틱 회귀분석과 유사
-탄젠트: 시그모이드의 기울기 소실 지연
-
출력층에서 활성함수
-시그모이드: 이진분류
-소프트맥스: 다중분류모델
-
손실함수: 예측값과 실제값의 차이 측정
-mse:회귀모델
-크로스핏 엔트로피: 분류모델