| 기법 | 설명 |
|---|---|
| 📊 분류 (Classification) | 새로운 데이터를 미리 정의된 그룹에 분류 (ex: 스팸메일인지 아닌지) |
| 🧩 군집화 (Clustering) | 비슷한 데이터끼리 그룹화 (ex: 고객 세그먼트 나누기) |
| 🔄 연관 규칙 학습 (Association Rule) | “A → B” 같은 규칙 찾기 (ex: 장바구니 분석) |
| 📈 회귀 (Regression) | 수치 예측 (ex: 다음달 매출 예측) |
| 📉 이상탐지 (Anomaly Detection) | 정상과 다른 이상값 탐지 (ex: 카드 부정 결제 탐지) |
| 🕒 시계열 분석 (Time Series) | 시간 흐름에 따른 패턴 분석 (ex: 주식 가격 예측) |
chaid(카이제곱 통계량), cart(지니지수), c4.5/5.0(엔트로피지수)
회귀(연속형) - chaid(anova, f통계), cart(분산감소), SVM(서포트 벡터 머신, 이진분류)
앙상블 - 보팅, 배깅, 부스팅, 스태킹, 랜덤포레스트
군집분석 - K-means, dbscan, 퍼지군집화, EM알고리즘, SOM(자기조직화지도)
연관분석 - 장바구니분석(Apriori, 최소지지도)
연관분석의 측도
지지도: 동시에 포함된 거래비율ㅇ
신뢰도: 조건부확률.
향상도 : 두 품목의 상관성
1을 기준으로 1보다 크면 양의상관, 1보다 작으면 음의상관, 1이면 관계없음
상관계수는 두 변수의 공분산을 각각의 표준편차로 나눈 값이다.
데이터간 거리정보의 근접성을 보존하는 방식, 차원축소하여 시각화
계량 - 양적척도,
비계량 - 순서척도
상관성 높은 변수들의 선형결합으로 차원축소, 자료의 분산이 가장 큰 축이 첫번째 주성분
평균고윳값 방법: 주 성분이 갖는 고유값(설명력)의 평균을 구한 뒤, 그것보다 작은ㄱㄹ 제거함.
차분 - 이동평균법 - 지수평활법(최근 시간 데이터에 가중치를 부여)
f-b score
b>1 재현율에 큰 비중
b<1 정밀도에 큰 비중
b = 1 f1score와 같음
독립변수들이 종속변수에 영향을 미치는지 파악하는 분석방법.
모형이 통계적으로 유의미한가 : f통계량
귀무가설: 모든 회귀계수는 0이다
회귀 계수들이 유의미한가 : t통계량
회귀계수는 0이다
알고리즘으로부터 피해를 입은 사람을 구제하고 사전에 방지하는 역할을 포함
일차원적 분석은 해당 부서 및 내부문제에만 국한
작은 성공으로부터 분석 범위를 보다 넓게 전략적으로 변화를 줌
-> 가치기반 분석으로 나아감
가치기반분석: 전사적인 성공을 위함
인구통계학적 변화는 전사적 관점에서 고려해야하는 요소
OLTP(Online Transaction Processing) : 데이터 수시로 갱신, 실시간 데이터 갱신
OLAP(Online Analytical Processing) : 데이터 대화식 분석
CRM : 마케팅, 고객과 관련자료 분석
SCM : 공급망 연결 최적화
ERP : 기업 경영 자원 효율화, 자원에 대한 구매 및 생산이 진행되도록 도와 업무 효율성 높임
RTE : 최신정보로 빠른 의사결정 지원
BI : 리포트 중심 도구
BA : 통계기반 비즈니스 통찰력
BLOCK CHAIN : 네트워크에 참여한 모든 사용자가 정보를 분산, 저장
KMS(Knowledge Management System) : 기업의 모든 지식 포함
데이터 포인트간의 연결 및 관계를 이해하기 위해 시각화로 표현하는 일련의 프로세스
신경망을 활용하여 차원숙소를 통해 지도로 형상화하여 군집.
순전파 방식 사용(은닉층 x)
최적의 초기 학습률 및 가중치의 결정 어려움
모집단 - 오차
표본집단 - 잔차