TIL - 250515

AnalytiCode·2025년 5월 15일

ADSP

3과목

결측값과 이상값 검색

EDA(탐색적 자료 분석)

4가지 주제: 저잔재현

  • 저항성의 강조
  • 잔차 계산 : 값들이 주경향으로부터 얼마나 벗어나 있는지 확인하는 척도
  • 자료변수의 재표현: 변수를 척도로 변환
  • 그래프를 통한 현시성: 시각화를 통하여 효율적으로 파악

결측값 처리

  • 완전분석법: 결측치 삭제
  • 평균 대치법
  • 회귀 대치법
  • 확률 대치법
  1. nearest neighbor
  2. hot-deck
  3. cold-deck

이상값 처리

  • 사분위수
    박스플롯 : 평균이 아니라 50%를 표시

  • Z-SCORE 데이터를 정규화(평균0, 표준편차1), 임계 값을 초과할 경우 이상값으로 판단

통계분석

통계학 개론

  • 확률적 표본 추출 방법
  1. 랜덤
  2. 계통추출법: 번호부여, 일정간격
  3. 집락 추출법(군집 추출법)
    군집 내 이질적(호), 군집간 동질적(동)
  4. 층화 추출법
    군집 내 동질적(1학년), 군집간 이질적(1,2,3학년)
  5. 복원/비복원
  • 기초 통계량
    관계측면
  1. 공분산: 두 확률변수의 상관정도. 0이면 상관이 없다.
    최소, 최대값이 없어 강약 판단 불가
    공분산: 두 변수의 방향성 친밀도, 두 변수가 어떻게 함께 변하는지 수치로 나타냄
    양수면 같은방향(x증가 -> y증가), 음수면 반대방향(반비례관계), 0이면 선형상관x(비선형은 있을 수 있다)
  1. 상관계수
  2. 공분산과 독립성과의 관계: 독립 -> 공분산 0, 공분산 0이라고 독립 x
  • 기초 확률 이론
  1. 조건부 확률: 특정사건 b가 발생했을 때 a가 발생할 확률
  2. 독립사건: a,b가 서로 영향을 주지 않는 사건
  3. 배반사건: a와 b가 서로 동시에 일어나지 않는 사건
  4. 베이즈 정리: 두 확률 변수의 사전 확률과 사후 확률사이의 관계를 나타내는 정리
  • 확률분포
  1. 이산확률: 값을 셀 수 있음. 확률질량함수
    베포항항하
  2. 연속확률: 값을 셀 수 없음, 밀도
    -정규분포
    -t분포: 꼬리부분이 더 두껍고 김. (표본이 30개보다 작다)
    -카이제곱 분포 : 동질성검정/모분산검정, 비모수검정(모집단 정보 x, 관측값의 순위나 차이)
    -f분포: 분산동질성 검정
  • 점추정
    모집단이 특정한 값으로 추정됨, 추정량으로 모수 추정
    추정량의 조건 : 불효일충

  • 가설검정
    1종오류: 귀무가설이 참인데 기각.

기초통계분석

회귀분석

  • 잔차: 계산값과 예측값의 차이
  • 적합성: 선형성 / 등분산성 -> 잔차가 무작위로 흩어져야 함
    (1) 잔차가 특정 방향으로 치우침
    편향(bias)이 있다는 뜻. 즉, 예측이 체계적으로 과대 또는 과소 추정되고 있다는 뜻.

(2) 잔차가 곡선 형태로 분포
→ 선형 모델이 비선형 관계를 놓치고 있음을 의미. 즉, 선형 회귀가 부적절하다는 신호.

(3) 잔차가 무작위로 흩어짐
잔차는 패턴 없이, 일정한 분포 없이 흩어져야 모델이 타당합니다.
= 오차가 독립이고 등분산이라는 가정을 만족.

(4) 잔차가 X축에 평행한 직선
잔차가 직선이면 패턴이 있다는 말 = 문제 있다는 뜻.
특히 하나의 직선 위에 있다는 건, 잔차가 모두 일정하거나 일정한 패턴을 따른다는 것 → 큰 문제

  • 회귀모형 평가
    SSE : 잔차의 제곱합, 모형에 의해 설명되지 않는 변동, 회귀선과 관측값의 차이.

  • 회귀분석 종류

  1. 릿지회귀: L2, 유클리디안거리기반, 변수 계수를 작게만듬(0에 가깝게)
  2. 라쏘회귀: L1, 맨하탄거리 기반, 일부 계수를 완전히 0 -> 변수선택
  3. 교호항회귀: 독립변수들의 교호작용(두 개 이상의 독립변수가 상호작용)이 포함된 회귀모형
  • 분산분석(ANOVA)
    3개 이상의 그룹의 평균을 비교하는 검정 (회귀모형의 유의성 분석)
    회귀, 잔차, 총

  • 회귀 모형의 검정
    귀무가설: 모든 회귀계수는 0이다
    설명력: 결정계수(R sqare)

시계열 예측

정상성

시계열 예측을 위해서는 모든시점에 일정한 평균과 분산을 가지는 정상성을 만족해야한다.

  1. 차분 : 현 - 이전
  2. 이동 평균법: 일정기간의 평균
  3. 지수평활법: 최근 시간 데이터에 가중치
  4. 지수변환, 로그변환, Box-Cox 변환

시계열 모형

분해시계열

시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
추운 계졀의 순환이 불규칙하다

  • 추세 요인
  • 계절 요인
  • 순환 요인 : 알려지지 않은 주기를 갖고 변화 ( 경제전반, 특정산업)
  • 불규칙 요인: 3가지 요인으로 설명 불가

오답

  • 시계열 자료의 분산이 일정하지 않은경우 변환을 통해 분산 일정하게 만들기
  • 정상성을 만족하기 위한 조건 중 하나, 공분산은 시차에는 의존하지만 시점에 의존해서는 안된다
  • 일정시간 간격으로 기록된 자료들로부터 특성을 파악하고 미래 예측
  • 차분은 현재시점 - 바로 직전 시점

다변량분석

상관분석

두 변수간의 선형적 관계가 존재하는지 파악하는 분석

  • 피어슨: 연속형변수, -1~1, 선형.
  • 스피어만: 연속형 + 순위(서열)형, -1~1 비선형

연관분석

항목들간의 조건-결과로 이루어지는 패턴 발견 기법(장바구니 분석)

  • 특징
    결과 단순, 분명(if, then), 비목적성 분석기법.
    품목 수가 많아지면 계산량이 기하급수적으로 증가한다.
    apriori 알고리즘: 최소 지지도 활용, 연관분석
  • 순차패턴
    연관분석에 시간 개념을 추가하여 품목과 시간에 대한 규칙 찾음

연관분석의 지표

지신향

  • 지지도: 전체중에 교집합 -> 동시에 포함된 거래비율
  • 신뢰도: a거래시 b도 거래될 확률 (조건부)
  • 향상도: a와 b의 상관성, 1보다 크면 양의상관, 1이면 상관없음, 1보다 작으면 음의상관

군집분석

비지도학습. 거리나 유사성을 기준으로 군집나눔

거리측도

  • 연속형 변수
  1. 유클리드거리
  2. 맨하튼거리 : 차이의 단순 합, 절댓값계산.
  3. 체비셰프 거리: 변수 거리 차 중 최댓값
  4. 표준화거리 : 유클리드 / 표준편차
  5. 민코우스키 거리: 유클리드, 맨하튼을 일반화
  6. 마할라노비스 거리: 표준화 거리에서 변수의 상관성 고려.
  • 범주형 변수
  1. 자카드 유사도(합집합과 교집합의 비율)
  2. 코사인 유사도(코사인 각도)

비계층적 군집화

  • K평균 군집화(K-Means Clustering)
    이상치 주의, 거리기반, k개수 설정
    중심점이 변경되면 군집이 변화함
    엘보우 메서드 사용 -> 평균으로 중심정 재설정.(PAM)

  • DBSCAN
    밀도기반, k지정 x

  • 퍼지군집화 : 확률기준

  • E(기대)M(추정) 알고리즘 : 분포기반

  • 자기조직화지도(SOM)
    신경망을 활용하여 차원축소로 지도로 형상화, 완전연결, 순전파

실루엣계수

군집분석 평가지표
같은 군집간 가깝고, 다른 군집간 먼 정도를 판단(-1~1)

주성분 분석(PCA)

상관성 높은 변수들의 선형결합으로 차원을 축소하여 새로운 변수를 생성.
자료의 분산이 가장 큰 축이 첫번째 주성분(고유값)

38,45

정형 데이터 마이닝

데이터 마이닝 개요

분류분석

로지스틱

종속변수가 범주형 변수를 대상으로 성공/실패 2개의 집단을 분류하는 문제에 활용.

  • 오즈: 성공/실패
    오즈가 1보다 크면 성공이 크다 = 설명변수가 결과 발생 가능성을 높인다.

  • 로짓 : 오즈에 로그 취한거 -> 선형관계 됨

  • 시그모이드 함수: 로짓의 역함수(e), 0~1 사이 확률 나타냄.

  • KNN
    거리기반, 훈련필요 x

  • 나이브베이즈 분류

  1. 베이즈정리
  2. 나이브 베이즈 분류

의사결정나무

노드 내 동질성이 커지고, 노드간 이질성이 커지는 방향

  • 분할방법
  1. 분류(범주형)

  2. 회귀(연속형)

앙상블

  • 보팅
  • 배깅: 부트스트랩 생성
  • 부스팅: 잘못된 데이터에 큰 가중치, 이상치 민감
  • 스태킹: 모델이 학습한 예측결과를 다시 학습
  • 랜덤포레스트: 배깅 + 의사결정트리

인공신경망

  • 활성함수 vs 손실함수
  1. 은닉층에서의 활성함수
    인공신경망의 선형성 극복
    -시그모이드: 로지스틱 회귀분석과 유사
    -탄젠트: 시그모이드의 기울기 소실 지연

  2. 출력층에서 활성함수
    -시그모이드: 이진분류
    -소프트맥스: 다중분류모델

  3. 손실함수: 예측값과 실제값의 차이 측정
    -mse:회귀모델
    -크로스핏 엔트로피: 분류모델

0개의 댓글