TIL - 250516

AnalytiCode·2025년 5월 16일

ADSP

데이터 마이닝

기법설명
📊 분류 (Classification)새로운 데이터를 미리 정의된 그룹에 분류 (ex: 스팸메일인지 아닌지)
🧩 군집화 (Clustering)비슷한 데이터끼리 그룹화 (ex: 고객 세그먼트 나누기)
🔄 연관 규칙 학습 (Association Rule)“A → B” 같은 규칙 찾기 (ex: 장바구니 분석)
📈 회귀 (Regression)수치 예측 (ex: 다음달 매출 예측)
📉 이상탐지 (Anomaly Detection)정상과 다른 이상값 탐지 (ex: 카드 부정 결제 탐지)
🕒 시계열 분석 (Time Series)시간 흐름에 따른 패턴 분석 (ex: 주식 가격 예측)

분류(범주형)

chaid(카이제곱 통계량), cart(지니지수), c4.5/5.0(엔트로피지수)

  • 지니지수
    불순(불순도: 섞여있는 정도)이 0이면 좋다: 순수도 최대

회귀(연속형) - chaid(anova, f통계), cart(분산감소), SVM(서포트 벡터 머신, 이진분류)

앙상블 - 보팅, 배깅, 부스팅, 스태킹, 랜덤포레스트

앙상블

  • 배깅은 분류기를 병렬로 학습하는 형태
  • 랜덤포레스트는 배깅보다 더 많은 부작위성을 줄임
  • 앙상블 기법을 전체적으로 이상값에 민감하지 않음

군집분석 - K-means, dbscan, 퍼지군집화, EM알고리즘, SOM(자기조직화지도)

연관분석 - 장바구니분석(Apriori, 최소지지도)

연관분석

연관분석의 측도

연관분석의 지표

  • 지지도: 동시에 포함된 거래비율ㅇ

  • 신뢰도: 조건부확률.

  • 향상도 : 두 품목의 상관성
    1을 기준으로 1보다 크면 양의상관, 1보다 작으면 음의상관, 1이면 관계없음

결측값과 이상값 검색

결측값 처리

  • 다중대치법 : 여러번 대치(대치 - 분석 - 결합)

통계분석

관계측면

  • 공분산과 독립성의 관계
    두 변수가 독립이면 공분산(상관계수) 0,
    하지만 공분산이 0이라고 두 변수가 독립인것은 아니다.

상관계수는 두 변수의 공분산을 각각의 표준편차로 나눈 값이다.

다변량분석

다차원 척도법(MDS)

데이터간 거리정보의 근접성을 보존하는 방식, 차원축소하여 시각화
계량 - 양적척도,
비계량 - 순서척도

주성분분석(PCA)

상관성 높은 변수들의 선형결합으로 차원축소, 자료의 분산이 가장 큰 축이 첫번째 주성분

평균고윳값 방법: 주 성분이 갖는 고유값(설명력)의 평균을 구한 뒤, 그것보다 작은ㄱㄹ 제거함.

시계열예측

  • 정상성
    시계열 예측을 위해서는 모든시점에 일정한 평균과 분산을 가지는 정상성을 만족해야한다.
  1. 평균은 시점에 의존하지 않는다
  2. 분산은 시점에 의존하지 않는다
  3. 공분산은 시차에 의존하고, 시점에 의존하지않는다(공분산의 단위는 두 척도의 단위의 곱)

차분 - 이동평균법 - 지수평활법(최근 시간 데이터에 가중치를 부여)

분류모델 평가지표

f-b score
b>1 재현율에 큰 비중
b<1 정밀도에 큰 비중
b = 1 f1score와 같음

인공신경망

활성화 함수화 손실함수

  • 은닉층 활성함수: 선형성을 극복
  1. 시그모이드 함수 (로지스틱 회귀)
  2. 하이퍼볼릭 탄젠트, -1~1
  3. ReLU 기울기 소실문제 극복, (0~x)
  • 출력층 활성함수
  1. 시그모이드
  2. 소프트맥스
  • 손실함수
    예측값과 실제값 차이 측정
  • MSE
  • 크로스 엔트로피

기초 통계분석

회귀분석

독립변수들이 종속변수에 영향을 미치는지 파악하는 분석방법.

  • 계수추정: 최소제곱법(SSE)RK CHLTH.
  • 회귀모형 평가: R-Square, 회귀모형에 의해서 설명되는 변동이 차지하는 비율

회귀모형의 검정

  • 모형이 통계적으로 유의미한가 : f통계량
    귀무가설: 모든 회귀계수는 0이다

  • 회귀 계수들이 유의미한가 : t통계량
    회귀계수는 0이다

오답

알고리즈미스트

알고리즘으로부터 피해를 입은 사람을 구제하고 사전에 방지하는 역할을 포함

일차원적 분석 - 가치기반 분석

일차원적 분석은 해당 부서 및 내부문제에만 국한
작은 성공으로부터 분석 범위를 보다 넓게 전략적으로 변화를 줌
-> 가치기반 분석으로 나아감
가치기반분석: 전사적인 성공을 위함

인구통계학적 변화는 전사적 관점에서 고려해야하는 요소

전사적관점?

1단원

데이터 베이스 활용

기업활용 데이터베이스

OLTP(Online Transaction Processing) : 데이터 수시로 갱신, 실시간 데이터 갱신
OLAP(Online Analytical Processing) : 데이터 대화식 분석
CRM : 마케팅, 고객과 관련자료 분석
SCM : 공급망 연결 최적화
ERP : 기업 경영 자원 효율화, 자원에 대한 구매 및 생산이 진행되도록 도와 업무 효율성 높임
RTE : 최신정보로 빠른 의사결정 지원
BI : 리포트 중심 도구
BA : 통계기반 비즈니스 통찰력
BLOCK CHAIN : 네트워크에 참여한 모든 사용자가 정보를 분산, 저장
KMS(Knowledge Management System) : 기업의 모든 지식 포함

빅데이터 활용 테크닉

  • 유형분석: 같은 패턴을 보이는 고객을 분류하여 다른 서비스를 제공
  • 텍스트마이닝: 영화 리뷰를 통해 영화에 점수를 부여
  • 회귀분석: 고객의 만족도와 재방문율을 계산

마이닝(mining): 채굴, 데이터 속에서 규칙이나 패턴을 찾음

데이터 모델링

데이터 포인트간의 연결 및 관계를 이해하기 위해 시각화로 표현하는 일련의 프로세스

2과목

빅데이터 분석 방법론

분석 방법론 모델

  • 폭포수모델 : 이전단계 완료되어야 다음단계
  • 프로토타입: 일부분(프로포타입)을 우선개발하고 보완, 사용자 개발 방법...

하향식 접근법 해결방안 탐색

  • 시스템 고도화
  • 교육 및 채용을 통한 인력확보

자기조직화지도(SOM)

신경망을 활용하여 차원숙소를 통해 지도로 형상화하여 군집.
순전파 방식 사용(은닉층 x)
최적의 초기 학습률 및 가중치의 결정 어려움

오차 / 잔차

모집단 - 오차
표본집단 - 잔차

0개의 댓글